本周AI领域聚焦模型升级、底层技术突破与应用生态拓展。OpenAI、阿里通义、智谱AI、字节跳动等持续强化模型专业化与多模态能力,编码、图像生成、语音交互等模型性能显著提升;硬件与底层框架创新涌现,摩尔线程、上海交大等实现GPU架构、全光AI芯片突破;钉钉、SciMaster、国家超算互联网等推出AI Agent,推动其在科研、办公等场景落地,全方位提升应用效率与边界,一起来回顾本周的AI新鲜事儿吧!
AI 大模型
OpenAI发布新一代智能体编码模型「GPT-5.2 Codex」,编码能力升级
12月19日,OpenAI正式发布了新一代智能体编码模型「GPT-5.2 Codex」,该模型基于「GPT-5.2」构建,在长程任务执行、大规模代码变更、Windows原生环境支持及网络安全能力等方面实现系统性改进,通过上下文压缩机制提升超长上下文利用效率,整合多代模型优势,增强多模态输入理解精度,在SWE-Bench Pro等基准测试中表现优于前代,已向付费ChatGPT用户开放并推进相关试点,网友反馈其编码能力提升10%,但Token消耗较高,更适配中型企业。
Google开源「T5Gemma 2」与「FunctionGemma」双端侧小模型
12月19日,Google开源Gemma 3家族两款端侧小模型「T5Gemma 2」与「FunctionGemma」,前者为回归编码器-解码器架构的多模态长上下文模型(含270M-4B等规模),通过绑定嵌入、合并注意力机制优化效率,支持128K tokens长上下文与140余种语言,在多模态、推理等基准测试中表现优于同类模型,借助模型适配技术降低训练成本;后者为2.7亿参数的函数调用专用模型,可在手机、浏览器等端侧设备运行,支持行动与对话一体化,经微调后移动端操作准确率从58%提升至85%,专注解决端侧智能体工具调用需求。
NVIDIA开源通用游戏基础模型「NitroGen」,跨千款游戏适配剑指具身智能
12月19日,NVIDIA开源通用游戏基础模型「NitroGen」,该模型基于GR00T N1.5架构改造,融合互联网规模视频-动作数据集、多游戏基准评测环境与统一视觉-动作策略模型,由多游戏基础智能体、通用模拟器及4万小时覆盖1000+游戏的开源数据集构成,以游戏视频帧为输入输出手柄操作信号,天然适配支持手柄的各类游戏,具备跨游戏零样本游玩能力及少量微调适配新游戏的泛化潜力,在2D、3D等不同类型游戏的战斗、导航等任务中表现出色,迁移至新游戏时任务成功率较从零训练最高提升52%,其数据集、评测套件及模型权重已同步开源。
通义千问推出全新图像生成模型「Qwen-Image-Layered」
12月22日,通义千问推出全新图像生成模型「Qwen-Image-Layered」,采用自研创新架构,通过RGBA-VAE、VLD-MMDiT等关键技术,将图像分解为语义解耦且可独立编辑的RGBA图层,从根本上解决传统图像编辑的一致性不足、边界模糊等问题,支持缩放、移动、着色、替换、删除等多种精准编辑操作,还具备可变图层数量及递归分解能力,相关技术报告、代码、模型权重及Demo已公开。
Apple发布多模态AI模型「UniGen 1.5」,集成三大能力对标闭源大模型
12月23日,Apple研究团队发布多模态AI模型「UniGen 1.5」,突破传统“缝合怪”模式,首次在单一模型中集成图像理解、生成与编辑三大核心能力;为解决AI修图时指令理解不准的问题,Apple首创“编辑指令对齐”技术,让模型先根据原图和需求生成目标图像的详细文本描述再执行操作,大幅提升精准度,同时设计统一奖励系统,确保生成与编辑遵循同一质量标准,增强稳健性。
智谱AI上线并开源「GLM-4.7」模型,编码推理能力开源第一
12月23日,智谱AI上线并开源「GLM-4.7」模型,该模型在编码、推理、工具调用等核心能力上实现显著提升,前端审美与通用对话、创作能力也有所优化,在Code Arena全球编码评测中位列开源第一、国产第一,超过GPT-5.2、Claude Sonnet 4.5等竞品,目前已通过BigModel.cn提供API,在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作,可通过智谱清言APP/网页版等在线体验。
稀宇科技发布「MiniMax M2.1」模型,多语言编程能力达SOTA
12月23日,MiniMax稀宇科技发布「MiniMax M2.1」模型,该模型聚焦真实世界复杂任务,在Rust、Java等多语言编程及Web/原生Android/iOS开发能力上实现跃升,强化了复合指令执行、Agent/工具泛化能力,回复更简洁高效且对话写作质量优质,在VIBE综合榜单以88.6分展现接近Claude Opus 4.5的全栈构建能力,可应用于全栈开发、办公自动化、物理世界Agent等场景,目前已通过开放平台提供API、MiniMax Agent产品开放使用,Hugging Fac后续将全面开源权重,还推出M2.1-lightning高速版本并支持自动缓存,Coding Plan用户可免费享受更快推理速度。
通义百聆家族开源新一代语音交互模型「Fun-Audio-Chat-8B」
12月23日,通义百聆家族开源新一代语音交互模型「Fun-Audio-Chat-8B」,兼具高智商和高情商。该模型采用创新双分辨率端到端设计,音频帧率降至业界最低5Hz,通过压缩-自回归-解压缩架构节省近50%GPU计算,兼具高效低算力优势;具备出色共情对话能力,无需情绪标签可自动感知用户情绪,支持角色扮演和量身定制语音情绪、语速、音量等参数。
字节跳动Seed团队推出形式化数学推理专用模型「Seed Prover 1.5」
12月24日,字节跳动Seed团队推出新一代形式化数学推理专用模型「Seed Prover 1.5」,通过全新Agentic架构和大规模的Agentic RL训练,其推理能力和推理效率显著提升,在IMO 2025达金牌分数线,Putnam及Fate-H/X等评测集刷新SOTA;其Sketch Model可拆解复杂命题,搭配多智能体协作系统优化解题流程,目前技术报告、Lean证明代码已公开,后续将开放API。
阿里升级Qwen3-TTS家族模型,发布音色创造和音色克隆两款新模型
12月24日,通义千问Qwen3-TTS家族新推出两款模型,音色创造模型「Qwen3-TTS-VD-Flash」和音色克隆模型「Qwen3-TTS-VC-Flash」。前者支持自然语言指令精细化调控音色、韵律等,在相关评测中表现优于「GPT-4o-mini-tts」等竞品,后者支持3秒级音色克隆且可生成10大主流语言,多语种词错误率优于MiniMax等同类模型;两款模型均具备高表现力拟人化音色与强大文本解析鲁棒性,支持音色持久存储与重复调用,可通过Qwen API调用,相关API文档已同步公开。
技术突破
摩尔线程发布全功能GPU架构「花港」及多款芯片、万卡集群新品
12月20日,科创板上市15天后的摩尔线程在开发者大会上集体亮相五年研究成果,发布新一代全功能GPU架构「花港」(算力密度提升50%、能效提升10倍,支持10万卡以上规模智算集群,还搭载了第一代AI生成式渲染架构和第二代光线追踪硬件加速引擎)及基于该架构的AI训推一体GPU「华山」、高性能图形渲染GPU「庐山」,还推出长江系列SoC芯片及MTT AIBOOK AI算力笔记本,上线基于平湖架构S5000的「夸娥」万卡集群(浮点运算能力达10Exa-Flops,训练线性扩展效率95%)。
MiniMax首次开源海螺视频底层技术「VTP」,创新提升生成模型性能
12月18日,MiniMax首次开源海螺视频底层技术「VTP」(视觉分词器预训练框架),核心创新是关联latents易学性与通用表征学习,将tokenizer作为scaling的核心,展现出全面的scaling曲线和扩展方向,不修改下游主模型(如DiT)训练过程,仅通过前置优化tokenizer实现端到端生成性能倍数提升,追求真实工业级环境的广泛适用性而非过拟合特定场景。其技术思路融合了自监督、对比学习、重建等多种表征学习方法,从头预训练tokenizer以实现极致表征并保留scaling潜力,相关资源已公开,为生成统一模型构建、训练数据分布优化等提供新视角。
上海交大陈一彤团队推出全球首款全光生成式AI芯片「LightGen」
12月22日消息,上海交大陈一彤团队推出全球首款全光生成式AI芯片「LightGen」,相关研究登上《Science》。该芯片首次将光子计算拓展至大模型语义媒体生成领域,以光子编码器、光学潜在空间(OLS)和光子生成器构成端到端全光架构,搭载无监督训练算法BOGT与多生成器切换结构,可完整实现“输入-理解-语义操控-生成”闭环,支持高分辨率图像、3D(NeRF)、高清视频生成及去噪、风格迁移等多项任务,无需切分图像即可保持全局结构与连续特征,其计算速度、能效及计算密度均远超英伟达A100(整体性能高两个数量级以上),为光子计算在AI领域的应用开辟了新路径。
钉钉发布全球首个工作智能操作系统「Agent OS」,并发布超20款AI新品
12月23日,钉钉正式推出全球首个为AI打造的工作智能操作系统「Agent OS」,同步发布AI钉钉1.1版本「木兰」,该系统以运行和协同AI Agent为核心,构建了包含新一代交互入口(钉钉ONE)、企业Agent专属AI硬件(DingTalk Real)、AI搜索问答(AI搜问)、通用任务处理Agent (悟空)及企业AI平台(DEAP)在内的产品矩阵,发布了超过20款AI产品,涵盖制造业“订单Agent、质量Agent、AI差旅、AI客服”等商业可交付Agent,同时迭代升级AI搜问、AI表格、DingTalk A1、AI听记四大产品。
AI Agent
SciMaster团队推出机器学习工程智能体「ML-Master-2.0」
12月23日,SciMaster团队推出机器学习工程智能体「ML-Master-2.0」,该系统基于国产Deepseek-V3.2-Speciale开源大模型,以AI4AI范式重塑AI研发,引入超长程自主能力与层次化认知缓存机制,可端到端完成数据处理、建模、调参等全流程ML工程任务,在OpenAI MLE-Bench基准测试中以56.44%的奖牌率登顶全球第一,击败Google、Meta等团队,已落地具身智能机器人训练、理论物理模拟等场景,核心代码已开源,后续将通过SciMaster平台开放产品形态。
Anthropic官方开源「Agent Skills」知识库,包含16个生产级技能库
12月23日,Anthropic官方开源「Agent Skills」知识库,包含16个生产级技能库,并非简单的Prompt集合,涵盖文档处理(Word/Excel/PPT/PDF 生成编辑、协同编辑)、创意设计(算法艺术、前端设计等)、开发技术(Web应用测试、MCP构建)、企业沟通及元技能 “skill-creator”(降低自定义门槛),可处理复杂生产级任务,证明AI Agent的专业化能力,可帮助开发者更好地利用Claude模型进行各类应用。
国家超算互联网正式发布「科学计算智能体」,自然语言交互完成科研全流程
12月23日,国家超算互联网正式发布「科学计算智能体」,该智能体通过自然语言交互可自动完成科研任务全流程,将传统1天的工作缩短至约1小时,已覆盖近百个高频科研计算场景、三大学科及数十款计算软件,并依托超算互联网AI社区“智能体广场”与知识库体系,构建了120余个行业知识库,覆盖人工智能、AI4S、工业仿真、材料科学等七大应用场景,大幅降低科学计算门槛并提升科研效率。
AI 工具
Second Me发布1.1版本重塑对话框,推送「AI合拍」等多种玩法
12月24日消息,Second Me发布 1.1版本,以AI主动性重塑对话框,让交流从“被动回复”升级为“主动交付”,可根据上下文和情绪温度主动推送「AI合拍」、「Rap Battle」等社交玩法。每个人的Second Me可调用真实身份信息和记忆创作内容,AI从“社交图谱”升级为“Context图谱”,连接介质从标签转向动态分层记忆模型,支持严格的记忆边界划分确保隐私安全。
字节跳动旗下的TRAE中国版SOLO模式面向全部用户免费开放
12月24日,字节跳动旗下的TRAE中国版推出年终回馈活动,其SOLO模式将逐步面向全部用户免费开放(24日至25日)。用户只需将TRAE中国版IDE更新至V3.3.10或以上版本,即可在开发过程中体验该模式的便捷功能。同时新增Doubao-Seed-Code、GLM-4.7等6个内置模型供大家按需选择,产品将根据模型的效果和速度,自动为用户配置最佳的上下文窗口大小,助力高效开发。