产业资讯 | 深圳：建设国产人工智能生态源头创新中心,珠海飞企耀点科技有限公司

● 深圳：建设国产人工智能生态源头创新中心

● 北京力争到2025年底形成100个优秀行业大模型产品

● 上海：创建国家人形机器人制造业创新中心

● 智谱AI宣布上线文生视频模型“清影”，可30秒生成视频

● 又一「国产版Sora」全球上线！清华朱军创业团队，视频生成仅需30秒

● 字节大模型同传智能体，一出手就是媲美人类的同声传译水平

● OpenAI凌晨发布AI搜索SearchGPT，正式宣告与Google和 Perplexity的竞争

● 谷歌AI拿下IMO银牌，数学推理模型AlphaProof面世

● 黄仁勋与扎克伯格首次公开对话：支持AI大模型开源策略

● Meta开源「分割一切」2.0模型，视频也能分割了

● Getty携手英伟达升级AI文生图服务：6秒生成4张照片、提示词最多 250 个单词

● 英伟达加速人形机器人发展黄仁勋：面向全球机器人公司开放访问

▼深圳：建设国产人工智能生态源头创新中心

近日，中共深圳市委办公厅、深圳市人民政府办公厅印发《深圳市加快打造人工智能先锋城市行动方案》。方案提出，建设国产人工智能生态源头创新中心。配置国产算力及算法、算子库、数据库、工具链、模型库等工具，形成2个行业大模型，赋能50家企业打造典型应用场景。鼓励企业、高校、科研院所共建国产人工智能联合实验室，形成一批“人工智能+”行业解决方案。支持成立粤港澳大湾区人工智能产业联盟。

▼北京力争到2025年底形成100个优秀行业大模型产品

《北京市推动“人工智能+”行动计划(2024-2025年)》7月26日发布，提出到2025年底，通过实施5个对标全球领先水平的标杆型应用工程、组织10个引领全国的示范性应用项目、推广一批具有广泛应用前景的商业化应用成果，力争形成3-5个先进可用、自主可控的基础大模型产品及100个优秀的行业大模型产品、1000个行业成功案例。

▼上海：创建国家人形机器人制造业创新中心

上海印发《上海市促进工业服务业赋能产业升级行动方案（2024—2027年）》，其中提出，促进人工智能与制造业深度融合。聚焦人工智能在生产制造、研发设计中的落地应用，加快培育为制造业提供人工智能解决方案的供应商，开发故障分析、流程工艺等工业语料产品，推动工业大模型发展，促进制造业全流程智能化。创建国家人形机器人制造业创新中心，在汽车、电气设备生产和零部件加工等领域，打造一批人形机器人赋能制造应用场景，形成机器人生产解决方案。聚焦科学智能服务，强化大模型在药物筛选、分子结构预测、药品检验检测等方面的应用。

▼智谱AI宣布上线文生视频模型“清影”，可30秒生成视频

7月26日，智谱AI CEO张鹏在智谱Open Day上宣布，AI生成视频模型清影（Ying）上线智谱清言，生成6秒视频只需要30秒的时间。即日起所有C端用户，都能通过清影（Ying）体验到AI文生视频、图生视频能力。据介绍，输入一段文字后（Prompt），用户即可以选择自己想要生成的风格，最终生成充满AI想象力的视频片段。此外，清影（Ying）还带来了更多的新玩法，包括表情包梗图、广告制作、剧情创作、短视频创作等。

▼又一「国产版Sora」全球上线！清华朱军创业团队，视频生成仅需30秒

日前，生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频，凭借其生动逼真、不输 Sora 的效果，惊艳了一众网友。7月31日，Vidu 正式上线。无需申请，只要有个邮箱，就能上手体验。此外，Vidu 的生成效率也贼拉猛，实现了业界最快的推理速度，仅需 30 秒就能生成一段 4 秒镜头。现阶段，Vidu 有两大核心功能：文生视频和图生视频。「Vidu」底层基于完全自研的 U-ViT 架构，该架构由团队在 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 和 Transformer 融合的架构。

▼字节大模型同传智能体，一出手就是媲美人类的同声传译水平

来自字节跳动ByteDance Research团队的研究人员推出了端到端同声传译智能体：Cross Language Agent - Simultaneous Interpretation, CLASI，其效果已接近专业人工水平的同声传译，展示了巨大的潜力和先进的技术能力。CLASI采用了端到端的架构，规避了级联模型中错误传播的问题，依托于豆包基座大模型和豆包大模型语音组的语音理解能力，同时具备了从外部获取知识的能力，最终形成了足以媲美人类水平的同声传译系统。

▼OpenAI凌晨发布AI搜索SearchGPT，正式宣告与Google和 Perplexity的竞争

近日，OpenAI发布了SearchGPT原型，正式宣告进军 AI 搜索领域，与Google、Bing以及Perplexity展开竞争。据悉，SearchGPT原型旨在结合其AI模型的强大能力和网络信息，为用户提供快速、及时的答案，并附上清晰且相关的来源链接。此次测试将面向一小部分用户和出版商，以获取反馈意见。尽管这是一个临时原型，但OpenAI计划将其中最优的功能直接整合到未来的 ChatGPT中。在互联网上获取答案常常需要多次尝试才能得到相关结果。OpenAI相信，通过增强其模型的对话能力与网络实时信息的结合，用户可以更快、更轻松地找到所需信息。

▼谷歌AI拿下IMO银牌，数学推理模型AlphaProof面世

谷歌DeepMind宣布，他们数学AI“摘得”IMO（国际数学奥林匹克竞赛）银牌，并且距离金牌仅一分之差！此次，谷歌AI解决了2024 IMO竞赛6道题目中的4道，而且一做一个满分，总共获得28分，而且在第4题上只用了19秒，解题质量和速度惊呆了评分的人类评委。这次立下大功的，是两款AI系统——AlphaProof和AlphaGeometry 2。AlphaProof是一个能够在形式化语言Lean中证明数学命题的系统。它结合了预训练的大语言模型和AlphaZero强化学习算法，后者曾自学掌握了国际象棋、将棋和围棋。AlphaGeometry的升级版AlphaGeometry 2，是一个神经符号混合系统，基于Gemini的语言模型从头开始训练。

▼黄仁勋与扎克伯格首次公开对话：支持AI大模型开源策略

当地时间7月29日晚间，在美国丹佛举行的SIGGRAPH 2024计算机图形大会上，英伟达CEO黄仁勋(Jensen Huang)和 Meta 创始人 CEO 扎克伯格进行谈话，这也是两人首次公开对话。扎克伯格表示，“即使现在AI基础模型的进步停止了，我们仍然会有5年的产品创新，但我实际上认为基础模型和基础研究的进展正在加速。”黄仁勋也对Meta开发的开源大型模型给予了高度评价，并且他和扎克伯格都认为应该继续支持大型模型的开源策略。

▼Meta开源「分割一切」2.0模型，视频也能分割了

Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域，从而支持各种不同的用例，而无需自定义适配。在与黄仁勋的对话中，扎克伯格提到了 SAM 2:「能够在视频中做到这一点，而且是在零样本的前提下，告诉它你想要什么，这非常酷。」

▼Getty携手英伟达升级AI文生图服务：6秒生成4张照片、提示词最多 250 个单词

Getty Images和英伟达公司7月29日发布声明，联合推出安全的商业文生图AI模型，能够在6秒时间内生成4张照片，比以前的模型性能提高了一倍，速度处于行业领先水平。Getty Images表示全新文生图AI模型部分基于英伟达Edify模型架构，该架构隶属于英伟达Picasso，主要为视觉设计搭建和部署生成式AI模型。英伟达Edify模型架构不仅能够带来更快的生成速度、更高的质量、更符合用户输入的提示词，而且该改进了4K采样和微调模型的能力。

▼英伟达加速人形机器人发展黄仁勋：面向全球机器人公司开放访问

当地时间7月29日，英伟达在SiGGRAPH大会上宣布，为全球领先的机器人制造商、AI模型开发者和软件制造商提供一整套服务、模型及软件平台，以开发、训练并构建下一代人形机器人。整套产品包括用于机器人仿真和学习的NVIDIA NIM微服务和框架，用于运行多阶段机器人工作负载的NVIDIA OSMO编排服务，以及支持AI和仿真的远程操作工作流，允许开发者使用少量人类演示数据来训练机器人。英伟达创始人CEO黄仁勋表示：“AI下一波浪潮是机器人，其中最令人兴奋的发展之一是人形机器人。我们正在推进整个英伟达机器人堆栈的发展，面向全球机器人开发者和公司开放访问，让他们能够使用最符合其需求的平台、加速库和AI模型。”