MIAOYUN | 每周AI新鲜事儿 251114

本周全球AI领域迎来一系列重要发布与突破。OpenAI推出更智能的GPT-5.1系列,百度发布2.4万亿参数的文心5.0,Google、字节跳动、阶跃星辰、商汤科技、微博、小红书等也相继推出新模型。技术及工具层面,TypeScript成为GitHub最常用语言,Meta开源支持超1600种语言的语音识别套件,百度推出新一代AI引擎及芯片等。这些突破推动AI在多模态理解、内容生成等方向持续进化,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

华中科大等提出首个大规模水下多模态模型「NAUTILUS」

11月7日消息,华中科技大学和国防科技大学研究团队近期联合推出首个水下多模态大模型「NAUTILUS」,并构建了首个大规模水下多任务指令微调数据集「NautData」,包含145万个图像-文本对,全面支持八种不同的水下场景理解任务。「NAUTILUS」通过视觉特征增强(VFE)模块有效解决了水下图像模糊和颜色失真问题,超越了现有模型,尤其在低光、浑浊等恶劣环境下表现更为优异。该模型实现了对粗粒度和细粒度目标的分类、计数、视觉问答、检测等多项任务的统一理解,为水下大模型的发展和评测奠定了基础。

OpenAI发布「GPT- 5 Codex mini」轻量化模型

11月8日,OpenAI上线了「GPT- 5 Codex mini」,一款转为低成本、高效率代码生成设计的轻量模型。该模型适用于简单软件工程任务或主模型调用量接近上限时的无缝切换,系统将在使用量达90%阈值时自动推荐启用,避免服务中断。同时,ChatGPT Plus、Business及Edu用户的速率限制提升50%,Pro与Enterprise用户享有优先处理权,响应更迅捷。

阶跃星辰发布全球首个开源 LLM 级音频编辑大模型「Step-Audio-EditX」

11月10日,阶跃星辰发布全球首个开源 LLM 级音频编辑大模型「Step-Audio-EditX」,能够通过语言指令或迭代方式,精准控制音频的情感、说话风格和副语言特征,并实现零样本文本转语音(Zero-Shot TTS)。该模型采用统一LLM框架和“双码本”音频分词器,支持零样本文本转语音、迭代式编辑和中英双语及多方言;模型约3B参数,单卡32 GB GPU即可运行(提供Int8量化版),采用大边际合成数据训练,情感与风格控制准确率优于闭源模型。

Google爆火的「Nano Banana 2」限时上架1小时引热议

11月10日,Google爆火的「Nano Banana 2」限时上架1小时引热议。该预览版在图像生成方面表现出色,生成速度达到10秒,支持原生2K和4K分辨率。该版本可以在黑板上推导微积分,增强了文本渲染和信息图表能力,展现出更高的人物生成一致性。网友们对其在角色生成和手写体识别上的表现感到惊讶,认为其效果几乎无法与真人区分。

商汤科技发布并开源「SenseNova-SI」系列空间智能大模型

11月10日,商汤科技正式发布并开源「SenseNova-SI」系列空间智能大模型,包含2B和8B两个规格,其中8B版本在空间智能四个基本评测试中平均成绩60.99,领先「GPT-5」等模型。该系列模型采用系统化的方法扩充空间理解数据的规模,首次在空间智能领域验证了“尺度效应”,使其在空间智能六大核心维度(空间测量、空间重构、空间关系、视角转换、空间形变与空间推理)上实现一致性能力提升。此外,还同步开源了空间智能测评平台「EASI」与「英雄榜」,将补强具身智能在三维结构认知方面的基础能力。

小红书推出具有智能体特性的多模态模型「DeepEyesV2」

11月11日消息,小红书近期推出的「DeepEyesV2」模型,是其多模态模型的增强版,具有更强的工具协同能力。该模型不仅能够进行视觉推理,还能执行代码、进行网页搜索和处理图像,通过多工具协同,从“会看细节”进化为“能主动解决复杂问题的智能体”。该模型的训练分为两个阶段,首先是通过高质量数据集进行冷启动,然后通过强化学习来优化工具使用策略,在RealX-Bench基准测试中表现优异。

百度推出新一代多模态思考模型「ERNIE-4.5-VL-28B-A3B-Thinking」

11月11日,百度推出新一代多模态思考模型「ERNIE-4.5-VL-28B-A3B-Thinking」,仅3B激活参数,兼具高效计算与灵活响应优势。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。

火山引擎正式发布豆包编程模型「Doubao-Seed-Code」

11月11日,火山引擎正式发布豆包编程模型「Doubao-Seed-Code」,专为Agentic编程任务深度优化,在SWE-Bench-Verified官方榜单中刷新SOTA,更兼容Anthropic API、TRAE等主流开发环境。该模型支持256K长上下文,是首个支持视觉理解能力的编程模型,首月低至9.9元,是目前国内性价比最高的AI编程工具。

AI语音公司ElevenLabs发布实时语音转文本模型「Scribe v2 Realtime」

11月12日,AI语音独角兽公司ElevenLabs发布了实时语音转文本模型「Scribe v2 Realtime」,实现150毫秒的超低延迟和93.5%的高准确率,支持90多种语言。该模型该模型能够在复杂环境下高效工作,并适应多种音频格式,在FLEURS基准测试中针对前30种常用语言准确率达93.5%,能精准识别方言、专业术语,甚至辨别笑声类型。

OpenAI正式发布「GPT-5.1」系列模型,不仅聪明更有人情味

11月13日,OpenAI正式发布「GPT-5.1」系列新模型,包含「GPT-5.1 Instant」和「GPT-5.1 Thinking」两个版本,OpenAI 表示出色的AI不仅要聪明,还要让人与之对话变得愉悦,本次升级在智能和沟通风格上都有了显著提升,尤其是指令遵循和自适应思考的改进。「GPT-5.1 Instant」是ChatGPT最常用的模型,更温暖、更智能,也更善于遵循指令的模型。「GPT-5.1 Thinking」是高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。

李飞飞联合创立的WorldLabs公司正式发布3D世界生成模型「Marble」

11月13日,由李飞飞联合创立的WorldLabs公司正式推出其首款商业化“世界模型”产品「Marble」,支持用户通过文本提示词、照片、视频、3D布局图或全景图生成可编辑、可下载的3D环境。「Marble」首创AI原生编辑工具可对生成世界进行局部替换和结构调整,Chisel功能实现结构与风格分离,同一框架可生成不同风格场景。定价方面提供4档订阅方案,免费版本支持4次生成,旗舰版最高一个月95美元,可以生成75个世界。

新浪微博发布「VibeThinker-1.5B」模型超越近万亿参数模型

11月13日,新浪微博发布并开源「VibeThinker-1.5B」模型,仅有15亿参数、训练成本不足8000美元的小模型,在AIME25等顶级数学竞赛基准上击败了参数量是其数百倍的、近万亿参数的「DeepSeek-R1」(6710亿参数)。该模型采用创新的频谱到信号原则(SSP),将SFT和RL两阶段的目标解耦,SFT阶段追求多样性(Pass@K),RL阶段追求准确性(Pass@1);整个训练过程在H800 GPU花费不到8000美元,成本效益比达到30到60倍。

百度正式发布「文心5.0」,2.4万亿参数原生全模态模型

11月13日,在2025百度世界大会上,百度正式发布「文心5.0」大模型,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出,在LMArena文本排行榜得分1432表现出色。模型参数量达2.4万亿,超稀疏激活参数设计激活比例低于3%,已上线文心一言网页版、文心App及百度千帆平台提供API服务。

技术突破

字节跳动推出全新视频生成框架「InfinityStar」

11月9日,字节跳动推出全新视频生成框架「InfinityStar」,基于时空金字塔架构创新性地解耦视频的空间外观与时间运动信息,将一段5秒720p高清视频的生成时间,从主流扩散模型的30多分钟,压缩到了58秒。并且用一套统一的框架,支持图像生成、文本生成视频、图像生成视频、视频续写等多样化的任务。

清华大学、东北大学和OpenBMB等机构联合推出「UltraRAG2.1」

11月11日,清华大学THUNLP实验室、东北大学NEUIR实验室和OpenBMB等机构联合推出「UltraRAG2.1」,是首个基于 Model Context Protocol (MCP) 架构设计的RAG框架。研究者只需通过编写YAML文件,即可声明串行、循环与条件分支等逻辑,以极低代码量构建多阶段推理与检索生成系统。本次新版本围绕“原生多模态支持、知识接入与语料构建自动化、统一构建与评估的RAG工作流”三大方向进行核心增强。

「TypeScript」首次成为GitHub上使用最广泛的语言

11月12日消息,据GitHub《Octoverse 2025》报告显示,「TypeScript」以约4.2万名贡献者优势,首次超越Python,成为GitHub上使用最广泛的语言。「TypeScript」在2025年的贡献者数量增长了超过100万(同比增长 66%),主要驱动力来自默认使用TypeScript的开发框架和AI辅助开发。不过报告也指出Python在AI和数据科学领域仍然保持着主导地位,拥有260万贡献者(同比增长 48%);Jupyter Notebook 依旧是AI领域的首选探索性环境(相关仓库约40.3万个)。

AI 工具

xAI旗下Grok近期更新,升级「Grok 4 Fast」和「Grok Imagine」

11月8日,xAI旗下Grok家族一天之内连迎两大更新:升级「Grok 4 Fast」和「Grok Imagine」生成。「Grok 4 Fast」把上下文窗口提高到2M,并把完成率从77.5%拉到94.1%(推理)与97.9%(非推理),还加了锁屏小部件。「Grok Imagine」升级到真假难辨的程度,上线纯文本生成视频能力,用户只需输入一句话描述,即可在平均17秒内生成6至15秒、带背景音效的高质量短视频,无需任何图像素材或剪辑经验。

美团正式发布AI IDE编程工具「Meituan CatPaw」

11月10日,美团正式发布AI IDE编程工具「Meituan CatPaw」,以Agent &人协作为核心,通过Agent智能驱动编程,辅以代码补全、智能问答、项目预览调试等功能,结合美团自研的基于编程场景特训的LongCat模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效。该工具支持Python、C++、Java、JavaScript、TypeScript、Go、Rust等主流语言,目前开放公测并免费提供新用户500次对话额度(需申请邀请码体验)。

Meta开源最强语音识别模型套件「Omnilingual ASR」

11月11日,Meta AI FAIR团队发布并开源了其在自动语音识别(ASR)领域的最新成果:「Omnilingual ASR」语音识别模型套件,能为超过1600种语言提供自动语音识别能力,78%语言字符错误率低于10%。该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模ASR框架的上下文学习能力。同时开源的还有「Omnilingual ASR Corpus」(包含350种服务欠缺语言的数据集)、「Omnilingual wav2vec 2.0」(70亿参数的大规模多语言语音表征模型)和语言探索Demo(可供人们探索模型所覆盖语言的演示)。

百度智能云发布全新一代昆仑芯及基于昆仑芯的超节点产品天池

11月13日,百度智能云正式发布全新一代昆仑芯及基于昆仑芯的超节点产品天池,并公布未来五年按年推出新产品的规划。全新一代昆仑芯包括两款产品,其中「昆仑芯 M100」针对大规模推理场景优化设计,提供极致性价比,将于2026年上市。「昆仑芯M300」面向超大规模的多模态模型的训练和推理任务,提供极致性能,预计2027年上市。基于昆仑芯的「天池256」与「天池512」超节点产品,相比上一代,「天池256 超节点」的卡间互联带宽提升4倍、整体性能提升50%;「天池512超节点」在此基础上进一步跃升,单个超节点即可支撑万亿参数模型训练;两款产品将于明年正式上市。

百度正式推出发布「百度猎户座AI引擎」

11月13日,百度正式发布「百度猎户座AI引擎」,整合其25年积累的搜索技术与前沿AI能力,打造面向企业与开发者的全栈式AI服务平台。该引擎融合搜索AI API、MCP多模态计算平台及行业专属能力,显著降低AI应用门槛。开发者可快速调用智能客服、内容生成、数据分析等功能模块,大幅缩短产品开发周期。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×