MIAOYUN | 每周AI新鲜事儿 251031

本周AI领域迎来密集更新,视频生成为创新焦点,字节、MiniMax等发布的模型实现了长视频、多镜头与效率突破;多模态、3D场景与智能体平台(如华为WorldGrow、智源Emu3.5、360 SEAF)取得显著进展;同时,ChatGPT在心理安全、OpenAI在开源安全模型以及PayPal与OpenAI的生态合作上也有关键动作,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

中国科大与字节跳动联合发布端到端长视频生成模型「MoGA」

10月25日,中国科学技术大学与字节跳动旗下FanqieAI联合研发的端到端长视频生成模型「MoGA」正式亮相,该模型凭借全新的MoGA注意力机制,可直接生成分钟级长度、480p分辨率、24帧/秒的高质量多镜头视频,同时支持多镜头切换,能处理长达580K token的上下文信息,有效解决传统模型显存和计算量受限的问题,且模块化与兼容性强,可集成现有高效加速库提升效率,具备科研突破意义与产业落地潜力。

火山引擎发布新款视频生成模型「豆包视频生成模型 1.0 pro fast」

10月27日,字节跳动旗下的火山引擎发布了新款视频生成模型「豆包视频生成模型 1.0 pro fast」(Doubao-Seedance-1.0-pro-fast),该模型在继承「Seedance 1.0 pro」模型核心优势的基础上,实现了显著的效率突破:生成速度最高提升约3倍,价格直降72%(720P的5秒视频生成时间仅需10秒)。此外,模型还强化了指令遵循、无缝多镜头叙事、细节表现力等核心能力。

华为联合上海交通大学、华中科技大学推出了世界模型「WorldGrow」

10月28日,华为联合上海交通大学、华中科技大学推出了世界模型「WorldGrow」,可以生成1800㎡超大室内场景(19x39块),单张A100显卡在30分钟内可生成272㎡的场景,效率是同类技术的六倍。该模型利用三种核心技术实现高质量生成:精准数据预处理、3D块补全机制和粗到精生成策略。模型生成的场景具备连贯的几何拓扑和照片级真实感,且在复杂空间布局中能自主规划导航路径。

ChatGPT更新了内置模型「gpt-5-oct-3」

10月28日,ChatGPT更新了内置模型,命名为「gpt-5-oct-3」,主要改进了心理相关问题: 改进了精神病/躁狂、自杀/自残、情感依赖三大敏感领域,不良响应减少65-80%。专家评估显示,新模型比「GPT-4o」的不良响应减少了39-52%。

「Adobe Firefly Image 5」重磅升级

10月28日,在Adobe MAX大会上,「Adobe Firefly Image 5」重磅升级,是迄今为止最先进的图像生成和编辑模型,具备原生400万像素分辨率、照片级真实质感,并支持基于提示词的编辑功能。创作者只需拖放上传自己拥有使用权的参考图片、插图、草图及其他资产即可。

Soul App AI团队正式开源播客语音合成模型「SoulX-Podcast」

10月29日,Soul App AI团队正式开源播客语音合成模型「SoulX-Podcast」,是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。模型基于「Qwen3-1.7B」作为基座,采用LLM + Flow Matching语音生成范式,支持零样本克隆的多轮对话能力,多语种和跨方言的克隆能力等。

OpenAI开源安全分类推理模型「GPT-OSS-Safeguard」

10月29日,OpenAI开源了专门用于安全分类的推理模型「GPT-OSS-Safeguard」,包含120B和20B两个参数版本,都是基于「GPT-OSS」开源模型,采用Apache 2.0许可证,能直接理解开发者提供的策略文档进行内容分类,随时修改无需重新训练。该模型在多个基准测试中的推理能力超越「GPT-5」;OpenAI内部已使用该技术(Safety Reasoner原型)处理图像生成和Sora 2等产品,安全推理算力占比高达16%。

Cursor发布2.0版本,推出首个编码模型「Composer」

10月30日,Cursor发布2.0版本,推出首个编码模型「Composer」,生成速度达每秒250个token,是同类前沿系统的4倍,采用混合专家(MoE)模型,支持长上下文的生成与理解,目前已完全集成到 Cursor 2.0 中。同时,Cursor更新了支持多个智能体并行协作的新界面,基于git worktree或远程机器,实现不同模型同时处理同一任务,并构建原生浏览器工具用于测试迭代。

北京智源人工智能研究院发布「悟界·Emu3.5」多模态世界大模型

10月30日,北京智源人工智能研究院(BAAI)发布「悟界·Emu3.5」多模态世界大模型,基于34B稠密Transformer模型,在超10万亿的多模态Token上预训练,首次揭示“多模态Scaling范式”;模型采用“下一状态预测”目标实现视觉叙事和视觉指导能力,在图像编辑任务上达到与「Gemini-2.5-Flash-Image」相当性能。并创新提出“离散扩散自适应”(DiDA)技术,将图像生成速度提升近20倍,推理效率媲美顶尖扩散模型。

MiniMax更新周五连发,发布多个音视频模型及Agent产品

10月27日至31日,稀宇科技更新周五连发,先后发布了专为 Agent 和代码而生的「MiniMax M2」、视频模型「Hailuo 2.3」、通用Agent产品「MiniMax Agent」、语音模型「MiniMax Speech 2.6」及音乐模型「MiniMax Music 2.0」。

10月27日,MiniMax开源并发布了「MiniMax M2」,专为Agent和代码而生,以2300亿总参数、10亿激活参数的轻量级架构,在全球权威评测Artificial Analysis榜单中斩获总分全球前五、开源模型第一的成绩。在数学推理、代码生成、智能体任务执行等关键领域超越「Claude 4.5 Sonnet」,推理速度是「Claude 4.5 Sonnet」的2倍,综合成本仅为后者的8%,并限时免费提供每日50万Token调用额度,使用期至2025年11月7日。

10月28日,MiniMax推出视频模型「Hailuo 2.3」并升级Media Agent。「Hailuo 2.3」在肢体动作呈现、风格化以及人物微表情方面实现了显著的效果提升,同时对运动指令响应做进一步优化。此外,还提供「Hailuo 2.3 Fast」模型,生成速度更快,定价更低,最高可为批量创作降低50%成本。同时宣布,「Hailuo Video Agent」正式迭代升级为支持全模态全能创作的Media Agent,并已经在全球同步上线。

10月29日,MiniMax限时免费开放了基于MiniMax M2的通用Agent产品「MiniMax Agent」。

10月30日,MiniMax发布了最新语音模型「MiniMax Speech 2.6」,全面升级突破Voice Agent场景,超低延时,专业格式无障碍,更高自然度。

10月31日,MiniMax发布新一代音乐模型「MiniMax Music 2.0」,支持对人声音色的精准控制,可以通过Prompt,保持核心音色一致的基础上,让同一声音切换不同唱法,实现一声千变,AI也可化身「百变唱将」。

AI 工具

腾讯发布全新升级的「ima 2.0」版本,推出“任务模式”与“AI要点”

10月23日,腾讯在ima Open Day活动上正式发布了全新升级的「ima 2.0」版本。作为业界首个融合Agent能力的个人知识库,「ima 2.0」推出“任务模式”,使知识库从简单的搜索问答工具升级为能够理解复杂任务、自主拆解步骤、调用工具并完成整套流程的智能伙伴。此外,新增了“AI要点”功能,能自动生成结构化摘要,支持多任务并行和协作共享,提升了知识管理的效率。

360发布企业级智能体构建与运营平台「SEAF」

10月28日,360重磅发布了全球首款囊括L2级-L4级三代Agent的企业级智能体构建与运营平台「SEAF」,支持多模型、多知识库、多MCP能力灵活组合,适配企业各类个性化需求。同时,打通Workflow和多智能体模式,各类智能体自由组队,供企业根据场景灵活选择,真正实现成本可控。

马斯克正式发布“开源版”维基百科「Grokipedia V0.1」

10月28日,马斯克正式发布「Grokipedia V0.1」版本,并预告1.0版本要比现在强十倍。「Grokipedia V0.1」收录超88万篇文章,主要通过Grok去核查事实,还支持在线交互和申报错误。对比维基百科在内容详细度和参考资料数量上均有优势,但被指部分内容直接从维基百科照搬复制,同时维基百科页面浏览量同比减少8%。

Google Labs发布AI自动营销工具「Pomelli」

10月28日,Google Labs发布了一个AI自动营销工具「Pomelli」,以“输入URL即生成内容”的创新模式,重构传统营销工作流。用户只需提供企业或产品网站链接,系统就能自动解析品牌定位、核心产品与目标人群,快速生成适配社交媒体、邮件、广告等多渠道的营销内容。该工具充分整合谷歌在自然语言理解与内容生成领域的技术积累,既能确保内容贴合品牌调性,又能适配不同渠道的传播特点。

Hugging Face发布「LeRobot v0.4.0」

10月29日, Hugging Face发布「LeRobot v0.4.0」,引入可扩展的Datasets v3.0、强大的新 VLA (视觉-语言-动作) 模型如「PI0.5」与「GR00T N1.5」,以及全新的插件系统,简化硬件集成。该版本还新增对LIBERO与Meta-World仿真的支持、简化多GPU训练,并上线全新的Hugging Face机器人学习课程。

腾讯混元推出国内首个交互式「AI播客」

10月29日,腾讯混元推出国内首个交互式「AI播客」,打破传统播客单向收听模式,用户可在收听播客的过程中,随时打断主持人和嘉宾的发言,通过语音或者打字的方式提问。该播客依托大模型的意图识别、长上下文理解等能力,能结合上下文精准作答;还支持自主选择风格(默认、深度探索、思辨讨论)、主持人数(单人、双人)及8种不同音色,可将文本、网页、文档一键转化为双人对谈式音频,已接入微信公众号等平台。

Sora更新「角色客串」、「视频拼接」、「社区排行榜」三大新功能

10月30日,Sora更新「角色客串」、「视频拼接」、「社区排行榜」三大新功能。「角色客串」支持保持非人类客串角色一致性,可从生成视频中提取虚拟角色实现自循环;「视频拼接」嫌生成的视频太短,那么可以把两条视频拼接起来;「社区排行榜」分为被使用最多的客串角色、被二创最多的视频等。同时,OpenAI宣布Sora APP在美国、加拿大、日本和韩国四个国家限时取消邀请码要求。

市场动态

高通技术公司发布「AI200」和「AI250」

10月28日,高通技术公司发布面向数据中心的下一代AI推理优化解决方案,基于云端AI芯片Qualcomm「AI200」和「AI250」的加速卡及机架系统。「AI200」专为机架级AI推理设计,支持高达768GB LPDDR内存,适用于大语言模型与多模态系统的高效部署;「AI250」则采用近内存计算架构,带来超10倍内存带宽提升,显著降低功耗与延迟,特别适合边缘计算与实时推理场景。

PayPal与OpenAI达成合作,成为首个ChatGPT数字钱包

10月28日,支付巨头PayPal宣布已与OpenAI签署合作协议,其数字钱包将嵌入ChatGPT,让用户能够直接在该聊天机器人中完成购物支付,ChatGPT将成为首个原生集成支付钱包的AI平台。PayPal的钱包功能不止于支付,还包括买家和卖家保护、争议处理、订单追踪、商户验证与结算等全流程服务;OpenAI 正在推动“对话即购物(Agentic Commerce)”的模式,拥有庞大的用户基础、成熟的支付生态、强大的风控体系的PayPal将成为ChatGPT首个支付钱包。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×