本周全球AI领域创新密集,各大厂商竞相推出新一代大模型与智能工具。基础模型性能显著提升,Google的Gemini 3、OpenAI的GPT-5.1、xAI的Grok 4.1等模型在多模态、代码及情感理解方面取得突破。AI智能体与工具生态持续繁荣,微软的Copilot、Google的SIMA 2、AI编程IDE Antigravity及蚂蚁集团「灵光」等应用正重塑工作与创作方式。与此同时,开源操作系统、长期记忆技术及Arm与NVIDIA的硬件合作为AI发展夯实了算力与系统基础,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
MiroMind团队推出开源智能体基座模型「MiroThinker v1.0」
11月16日,MiroMind团队正式推出开源智能体基座模型「MiroThinker v1.0」,突破传统LLM对“上下文长度”和“有效交互轮数”的根本限制。「MiroThinker v1.0」提出全新“深度交互Scaling”维度,支持256K上下文和600轮工具调用,集成多种工具链可自主完成复杂任务闭环,支持本地部署及框架对接,后续将扩展工具生态与上下文规模。
Physical Intelligence发布了最新机器人基础模型「π*0.6」
11月18日,Physical Intelligence发布了最新机器人基础模型「π*0.6」,通过创新的Recap训练方法,融合示范、指导与自主实践三大环节,让视觉-语言-动作(VLA)模型突破模仿学习的瓶颈。该模型基于50亿参数的视觉-语言模型构建,搭配动作专家模块,支持文本指令与执行质量、动作优势等多维度条件输入,在做咖啡、叠衣物和组装纸箱等复杂任务上成功率达90%以上,吞吐量提高2倍以上,失败率降低2倍或更多。
马斯克旗下xAI发布新一代大模型「Grok 4.1」
11月18日,马斯克旗下xAI发布新一代大模型「Grok 4.1」,在情感理解、对话智能和实用性方面显著提升,幻觉率从上代模型的12.09%降至4.22%,已免费开放使用。评测显示,「Grok 4.1」Thinking版以1483分的成绩登顶LMArena文本竞技场榜首,但随后被谷歌「Gemini 3 Pro」以1501分反超。
Google发布新一代大模型「Gemini 3」,是其最智能、适应性最强的模型
11月18日,Google发布了其划时代的AI模型「Gemini 3」,一句话就能生成 3D 模型、做网站,甚至做一个开放世界游戏,在多项核心基准测试中全面超越「GPT-5.1」和「Claude 4.5」等竞品,「Gemini 3 Pro」在多模态推理(如MMMU-Pro达81%)、数学能力(MathArena Apex 23.4%)和长周期任务规划(Vending-Bench 2投资回报率领先)上表现突出。模型引入“Deep Think”深度思考模式和Google Antigravity智能体开发平台,强调更直接、简洁的交互体验,并支持学习、编程、规划等复杂场景。目前已开放给普通用户和开发者使用,分级定价策略同步公布。
Google推出新版图像生成模型「Nano Banana Pro」
11月20日,Google推出新版图像生成模型「Nano Banana Pro」(Gemini 3 Pro Image),这是基于「Gemini 3 Pro」打造的专业级图像生成与编辑模型,会在生成图像前进行内部推理,上下文窗口支持64K输入token、32K输出token,可输出1K至4K分辨率图像,最多可将14张输入图像组合为1张输出,还集成Google搜索能力提供最新知识支持,特别擅长复杂多轮图像生成编辑、多语言长文本渲染和需要高事实准确性的创意工作。
OpenAI同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」两大模型
11月20日,OpenAI同日推出「GPT-5.1 Pro」和「GPT-5.1-Codex-Max」两大模型,前者主打情商智商双强,在写作、数据分析等方面的能力比前一代模型更强。后者是首个原生支持“压缩”机制的编码模型,支持超长上下文窗口,可连续工作超24小时处理数百万token任务,思考token相比前代减少约30%,在SWE-bench Verified上达77.9%高分。
Meta发布SAM 3D家族包括「SAM 3D Objects」和「SAM 3D Body」
11月20日,Meta发布致力于理解和重建物理世界三维形态的开创性模型「SAM 3D」,可将2D图像分割结果直接转换成3D模型,即使存在遮挡也能重建。家族成员包括「SAM 3D Objects」和「SAM 3D Body」,前者专注于物体和场景重建,后者聚焦于人体姿态和形态估计。「SAM 3D」引入“可提示概念分割”功能,通过文本或示例提示定义概念,在LVIS零样本分割任务中准确率达47.0,超越SOTA 38.5。
AI Agent
Google DeepMind推出全新多模态智能体「SIMA 2」
11月14日,Google DeepMind推出全新多模态智能体「SIMA 2」,从一个指令执行者进化为了一个互动游戏伙伴。「SIMA 2」采用符号回归方法,整合「Gemini 2.5 Flash-lite」模型为推理引擎,不仅能够在虚拟世界中执行各类人类语言指令,任务执行成功率相较前代提升一倍;还能思考自身目标、与用户互动,并随着时间的推移不断自我改进。
昆仑万维发布轻量级多模态智能体「Skywork R1V4-Lite」
11月18日,昆仑万维正式推出一款集成视觉操作、推理与规划的轻量级多模态智能体「Skywork R1V4-Lite」,不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。用户仅需上传一张图片即可完成空间判断、模糊文字放大等复杂任务,无需复杂提示词,在8个多模态理解基准评测上整体领先「Gemini 2.5 Flash」。
微软全面升级「Copilot」,推出多项新功能和记忆用户偏好的「Work IQ」
11月18日,微软在2025 Ignite大会上全面升级了「Copilot」,推出多项新功能,包括「智能体联动」、「语音对话」及记忆用户偏好和工作流程的智能层「Work IQ」,能够更好地理解用户的工作方式,推测用户需求,并提供个性化的智能体服务。「Copilot」的更新涵盖了Word、Excel 和PowerPoint等应用,允许用户通过语音与其互动,并推出全新智能体控制平台「Agent 365」,帮助用户安全管理智能体。
AI 工具
OpenAI正式为ChatGPT推出「群聊功能」
11月14日,OpenAI正式为ChatGPT推出「群聊功能」,首次实现多人同时与AI交互的协作模式,目前已在日本、韩国、新西兰启动试点。新功能基于最新「GPT-5.1」模型驱动,支持搜索、发图片文件、生成图片、语音输入等,用户在群内自由交流不计入使用额度,仅当ChatGPT主动回复时才消耗速率限额,避免频繁互动受限。
Google旗下NotebookLM推出「Deep Research」深度调研功能
11月14日,Google旗下AI笔记工具NotebookLM迎来重要升级,推出「Deep Research」深度调研功能,可自动收集N个相关网页源并整理到上下文列表,几分钟内围绕主题搭建专属资料库。系统支持2500万token上下文处理,所有回答必须基于用户提供的“来源”且带引用标注,可验证性强,避免AI幻觉问题。其“视频概览”功能,可将文档、网页、视频转化成交互式视频并生成相应画面,Google明确承诺不会使用用户个人数据训练模型。
OceanBase发布并开源首款AI原生混合搜索数据库「seekdb」
11月18日,OceanBase发布并开源了首款AI原生混合搜索数据库「seekdb」,支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合AI推理与数据处理,并兼容Dify、Coze、LangChain、LlamaIndex等30余种主流AI框架,最低1核2GB内存即可部署,开发者仅需三行代码,即可快速构建知识库、智能体等AI应用,轻松应对百亿级多模数据检索,真正实现“开箱即用”的AI数据基座。
蚂蚁集团推出全模态通用AI助手「灵光」App
11月18日,蚂蚁集团推出全模态通用AI助手「灵光」App,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大核心功能,支持“自然语言30秒生成可编辑交互的小应用”,同时也是业内首个全代码生成多模态内容的AI助手,支持3D数字模型、音频、图标、动画、地图等全模态的信息输出,对话更生动,交流更高效,,目前已同步登陆安卓与iOS应用商店。
Google推出AI原生IDE产品「Antigravity」,挑战Cursor
11月19日,Google推出AI原生IDE产品「Antigravity」,是一款类似Cursor、WindSuf这样的VS Code换皮AI编程工具,集成AI代理、代码编辑器和浏览器三大工具,构建从编码到部署的完整闭环。该产品核心创新在于“产物”驱动工作流,通过任务列表、实施计划和演练报告让AI工作过程透明可控,支持用户评论反馈和批准机制。现已支持Gemini 3.0 pro、Claude 4.5 sonnet、GPT-OSS120B免费使用,提供MacOS、Windows、Linux三个版本。
技术突破
华为诺亚方舟实验室联合高效团队提出「ScaleNet」框架,实现高效模型扩展
11月18日,北京理工大学、华为诺亚方舟实验室及香港城市大学的研究团队联合提出了 「ScaleNet」框架,通过层级权重共享(Layer-wise Weight Sharing)和轻量级适配器(Lightweight Adapter)的有效结合,创新性地实现了“用仅少量额外参数量,将模型深度扩展一倍”,并在视觉Transformer(ViT)和大语言模型(LLM)上均验证了其有效性,显著提升了模型性能。
香港中文大学与字节跳动联合提出语义可控的视频生成框架「Video-As-Prompt」
11月18日,香港中文大学与字节跳动联合提出全新的语义可控的视频生成框架「Video-As-Prompt」,引入一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为prompt,就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。该框架采用混合Transformer架构(冻结DiT+可训练专家Transformer),在保持基座模型能力的同时实现多语义统一控制,并开源包含100K视频样本、覆盖100+高质量语义条件的VAP-Data数据集。
市场动态
开源欧拉社区发布全球首个超节点操作系统「openEuler 24.03 LTS SP3」
11月15日, 在操作系统大会2025上,开源欧拉社区(openEuler)正式开启新的5年发展之路,将于2025年底正式上线面向超节点的操作系统「openEuler 24.03 LTS SP3」,该系统具备全局资源抽象、异构资源融合和全局资源视图三大关键特征,旨在充分释放超节点算力潜能,加速基于超节点的应用创新。同时,华为开放「灵衢互联协议2.0」,并将向社区贡献支持超节点的操作系统插件代码,提供「内存统一编址」、「异构算力低时延通信」和「全局资源池化」等关键能力。
EverMind团队发布并开源长期记忆操作系统「EverMemOS」
11月16日,陈天桥盛大集团旗下AI团队EverMind发布并开源长期记忆操作系统「EverMemOS」,该系统在Locomo和LongMemoEval-S等主流评测集上分别以92.3%和82%的成绩刷新行业纪录。该系统受人脑记忆机制启发,创新设计四层架构(代理层、记忆层、索引层、接口层),采用“分层记忆提取”与动态组织,解决纯文本相似度检索难题,实现业界首个可拓展的模块化记忆框架解决传统传记忆形式单一问题。 目前已在Github开放开源版本,预计今年晚些时候发布云服务版本,为企业用户提供数据持久化与可扩展体验。
Arm将通过NVIDIA NVLink Fusion扩展 Neoverse平台
11月20日,Arm与NVIDIA正在携手树立AI基础设施的新标杆,通过NVIDIA NVLink Fusion架构扩展Arm Neovers计算平台,将率先应用于NVIDIA Grace Hopper及Grace Blackwell平台的性能、带宽和能效优势,扩展至整个生态系统。Arm Neoverse计算平台专为高能效、高性能扩展而打造;NVLink Fusion能将所有CPU、GPU和加速器整合为统一的机架级架构。生态系统合作伙伴可将高效的Arm架构计算能力集成至NVIDIA NVLink Fusion生态系统,实现全缓存一致性与高带宽互连。