
● 深圳:建设国产人工智能生态源头创新中心
● 北京力争到2025年底形成100个优秀行业大模型产品
● 上海:创建国家人形机器人制造业创新中心
● 智谱AI宣布上线文生视频模型“清影”,可30秒生成视频
● 又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒
● 字节大模型同传智能体,一出手就是媲美人类的同声传译水平
● OpenAI凌晨发布AI搜索SearchGPT,正式宣告与Google和 Perplexity的竞争
● 谷歌AI拿下IMO银牌,数学推理模型AlphaProof面世
● 黄仁勋与扎克伯格首次公开对话:支持AI大模型开源策略
● Meta开源「分割一切」2.0模型,视频也能分割了
● Getty携手英伟达升级AI文生图服务:6秒生成4张照片、提示词最多 250 个单词
● 英伟达加速人形机器人发展 黄仁勋:面向全球机器人公司开放访问
▼深圳:建设国产人工智能生态源头创新中心
近日,中共深圳市委办公厅、深圳市人民政府办公厅印发《深圳市加快打造人工智能先锋城市行动方案》。方案提出,建设国产人工智能生态源头创新中心。配置国产算力及算法、算子库、数据库、工具链、模型库等工具,形成2个行业大模型,赋能50家企业打造典型应用场景。鼓励企业、高校、科研院所共建国产人工智能联合实验室,形成一批“人工智能+”行业解决方案。支持成立粤港澳大湾区人工智能产业联盟。
▼北京力争到2025年底形成100个优秀行业大模型产品
《北京市推动“人工智能+”行动计划(2024-2025年)》7月26日发布,提出到2025年底,通过实施5个对标全球领先水平的标杆型应用工程、组织10个引领全国的示范性应用项目、推广一批具有广泛应用前景的商业化应用成果,力争形成3-5个先进可用、自主可控的基础大模型产品及100个优秀的行业大模型产品、1000个行业成功案例。
▼上海:创建国家人形机器人制造业创新中心
上海印发《上海市促进工业服务业赋能产业升级行动方案(2024—2027年)》,其中提出,促进人工智能与制造业深度融合。聚焦人工智能在生产制造、研发设计中的落地应用,加快培育为制造业提供人工智能解决方案的供应商,开发故障分析、流程工艺等工业语料产品,推动工业大模型发展,促进制造业全流程智能化。创建国家人形机器人制造业创新中心,在汽车、电气设备生产和零部件加工等领域,打造一批人形机器人赋能制造应用场景,形成机器人生产解决方案。聚焦科学智能服务,强化大模型在药物筛选、分子结构预测、药品检验检测等方面的应用。
▼智谱AI宣布上线文生视频模型“清影”,可30秒生成视频
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)上线智谱清言,生成6秒视频只需要30秒的时间。即日起所有C端用户,都能通过清影(Ying)体验到AI文生视频、图生视频能力。据介绍,输入一段文字后(Prompt),用户即可以选择自己想要生成的风格,最终生成充满AI想象力的视频片段。此外,清影(Ying)还带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。
▼又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒
日前,生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频,凭借其生动逼真、不输 Sora 的效果,惊艳了一众网友。7月31日,Vidu 正式上线。无需申请,只要有个邮箱,就能上手体验。此外,Vidu 的生成效率也贼拉猛,实现了业界最快的推理速度,仅需 30 秒就能生成一段 4 秒镜头。现阶段,Vidu 有两大核心功能:文生视频和图生视频。「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。
▼字节大模型同传智能体,一出手就是媲美人类的同声传译水平
来自字节跳动ByteDance Research团队的研究人员推出了端到端同声传译智能体:Cross Language Agent - Simultaneous Interpretation, CLASI,其效果已接近专业人工水平的同声传译,展示了巨大的潜力和先进的技术能力。CLASI采用了端到端的架构,规避了级联模型中错误传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,同时具备了从外部获取知识的能力,最终形成了足以媲美人类水平的同声传译系统。
▼OpenAI凌晨发布AI搜索SearchGPT,正式宣告与Google和 Perplexity的竞争
近日,OpenAI发布了SearchGPT原型 ,正式宣告进军 AI 搜索领域,与Google、Bing以及Perplexity展开竞争。据悉,SearchGPT原型旨在结合其AI模型的强大能力和网络信息,为用户提供快速、及时的答案,并附上清晰且相关的来源链接。此次测试将面向一小部分用户和出版商,以获取反馈意见。尽管这是一个临时原型,但OpenAI计划将其中最优的功能直接整合到未来的 ChatGPT中。在互联网上获取答案常常需要多次尝试才能得到相关结果。OpenAI相信,通过增强其模型的对话能力与网络实时信息的结合,用户可以更快、更轻松地找到所需信息。
▼谷歌AI拿下IMO银牌,数学推理模型AlphaProof面世
谷歌DeepMind宣布,他们数学AI“摘得”IMO(国际数学奥林匹克竞赛)银牌,并且距离金牌仅一分之差!此次,谷歌AI解决了2024 IMO竞赛6道题目中的4道,而且一做一个满分,总共获得28分,而且在第4题上只用了19秒,解题质量和速度惊呆了评分的人类评委。这次立下大功的,是两款AI系统——AlphaProof和AlphaGeometry 2。AlphaProof是一个能够在形式化语言Lean中证明数学命题的系统。它结合了预训练的大语言模型和AlphaZero强化学习算法,后者曾自学掌握了国际象棋、将棋和围棋。AlphaGeometry的升级版AlphaGeometry 2,是一个神经符号混合系统,基于Gemini的语言模型从头开始训练。
▼黄仁勋与扎克伯格首次公开对话:支持AI大模型开源策略
当地时间7月29日晚间,在美国丹佛举行的SIGGRAPH 2024计算机图形大会上,英伟达CEO黄仁勋(Jensen Huang)和 Meta 创始人 CEO 扎克伯格进行谈话,这也是两人首次公开对话。扎克伯格表示,“即使现在AI基础模型的进步停止了,我们仍然会有5年的产品创新,但我实际上认为基础模型和基础研究的进展正在加速。”黄仁勋也对Meta开发的开源大型模型给予了高度评价,并且他和扎克伯格都认为应该继续支持大型模型的开源策略。
▼Meta开源「分割一切」2.0模型,视频也能分割了
Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域,从而支持各种不同的用例,而无需自定义适配。在与黄仁勋的对话中,扎克伯格提到了 SAM 2:「能够在视频中做到这一点,而且是在零样本的前提下,告诉它你想要什么,这非常酷。」
▼Getty携手英伟达升级AI文生图服务:6秒生成4张照片、提示词最多 250 个单词
Getty Images和英伟达公司7月29日发布声明,联合推出安全的商业文生图AI模型,能够在6秒时间内生成4张照片,比以前的模型性能提高了一倍,速度处于行业领先水平。Getty Images表示全新文生图AI模型部分基于英伟达Edify模型架构,该架构隶属于英伟达Picasso,主要为视觉设计搭建和部署生成式AI模型。英伟达Edify模型架构不仅能够带来更快的生成速度、更高的质量、更符合用户输入的提示词,而且该改进了4K采样和微调模型的能力。
▼英伟达加速人形机器人发展 黄仁勋:面向全球机器人公司开放访问
当地时间7月29日,英伟达在SiGGRAPH大会上宣布,为全球领先的机器人制造商、AI模型开发者和软件制造商提供一整套服务、模型及软件平台,以开发、训练并构建下一代人形机器人。整套产品包括用于机器人仿真和学习的NVIDIA NIM微服务和框架,用于运行多阶段机器人工作负载的NVIDIA OSMO编排服务,以及支持AI和仿真的远程操作工作流,允许开发者使用少量人类演示数据来训练机器人。英伟达创始人CEO黄仁勋表示:“AI下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。我们正在推进整个英伟达机器人堆栈的发展,面向全球机器人开发者和公司开放访问,让他们能够使用最符合其需求的平台、加速库和AI模型。”