本周AI领域动态密集,大模型层面,腾讯混元、通义千问、Kimi、DeepSeek、Vidu AI、蚂蚁灵波科技等企业相继发布并开源图像、TTS、视频生成、具身智能等多模态模型,强化性能与功能适配;AI Agent方面,讯飞、生数科技推出场景化智能体平台,聚焦协同交互与营销等需求;AI工具端,OpenAI、Hyper3D等上线科研协作、3D编辑等工具,降低使用门槛;技术突破上,Google发布高效4D重建框架,微软推出3nm自研AI推理芯片,推动行业在模型、应用、硬件层面持续进阶,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
腾讯混元发布「混元图像3.0」图生图模型
1月26日,腾讯混元发布「混元图像3.0」(HunyuanImage 3.0-Instruct)图生图模型,该模型总参数量80B(激活参数约13B),采用混合专家(MoE)架构,基于原生多模态架构基础,经千万量级多任务数据训练、思维链构造及自研MixGRPO算法优化,具备稳定的指令遵循能力,生成图片一致性高、真实感强且速度显著提升,支持图片编辑(增删改、风格变换、老照片修复等)、多图融合(提取多图元素合成新图)等多样化功能,可应用于表情包制作、虚拟人物合拍、电商海报设计等场景,用户可通过元宝全端及腾讯混元官网体验。
通义千问开源「Qwen3-TTS」全家桶并推出「Qwen3-Max-Thinking」模型
1月26日,通义千问宣布两大动态:一是开源「Qwen3-TTS」全家桶,含1.7B(极致性能)和0.6B(轻量高效)两个版本,支持3秒音色克隆、自然语言描述音色创造、超高质量拟人化语音生成等功能,覆盖10种语言+9个精品音色,端到端延迟低至97ms,可处理拼音、数学公式等,已开放开源仓库及API;二是推出「Qwen3-Max-Thinking」模型,通过扩大规模与强化训练,在事实知识、复杂推理等五大维度全面提升,19项权威基准测试性能媲美顶尖模型,具备自适应工具调用(已上线Qwen Chat)和测试时扩展技术两大核心创新,已开放Qwen Chat体验及API,且API兼容OpenAI协议。
月之暗面发布并开源「Kimi K2.5」模型
1月27日,月之暗面发布并开源「Kimi K2.5」模型,是目前最智能全能的模型,采用原生多模态架构,支持视觉与文本输入,在Agent、代码、图像、视频等通用智能任务上达成开源领先水平,新增视觉理解与推理、Office软件中高阶技能,首次引入可组建100个分身并行处理1500步任务的“Agent集群”能力,同步推出编程工具「Kimi Code」(支持多编辑器集成及多模态编程辅助,其Agent SDK将开源)。
DeepSeek开源OCR专用模型「DeepSeek-OCR 2」
1月27日,DeepSeek开源OCR专用模型「DeepSeek-OCR 2」,并同步发布技术报告,该模型将编码器迭代至DeepEncoder V2(基于LLM替换原CLIP架构,引入因果推理与语义重排序,摆脱固定线性阅读顺序,更贴合人类阅读习惯),保留前代3B参数MoE解码器,在OmniDocBench v1.5基准测试中获91.09%得分,较前代提升3.73%,相似视觉token预算下编辑距离低于Gemini-3 Pro,兼具VLM架构探索价值与生成预训练数据的实用价值。
通义大模型正式开源6B参数非蒸馏基座模型「Z-Image」
1月28日,通义大模型正式开源6B参数非蒸馏基座模型「Z-Image」,专为高质量创作与开发者生态设计,具备风格无界(可驾驭动漫、插画等多种美学风格,拒绝同质化)、原生基座微调友好(支持CFG引导机制,LoRA/ControlNet训练收敛快)、高敏响应负向提示词(可精准过滤画面瑕疵)等核心优势,能实现多主体解耦与多元生成,现已在GitHub、魔搭、Hugging Face平台开放。
昆仑天工发布「Mureka V8」音乐大模型
1月28日,昆仑天工发布「Mureka V8」音乐大模型,基于MusiCoT技术体系演进,在音乐性、人声表现力、编曲层次及音质空间感等关键维度实现提升,达成“可发布”级创作能力,面向创作者提供含自然语言描述创作、多维度调整等完整创作流程支持,未来将推出AI Studio满足进阶需求,同时与太合音乐集团达成战略合作,通过开放平台及API为C端用户、音乐人、开发者等提供解决方案,已服务全球8000多家客户,致力于打造AI版“Spotify”,推动AI音乐融入主流音乐产业并搭建全新商业生态。
生数科技发布「Vidu Q2参考生Pro」模型
1月27日,Vidu AI全球创想周Day 1发布「Vidu Q2参考生Pro」模型,全球首创“万物可参考”视频模型,支持2个视频+4张图片多模态输入,涵盖特效、表情、纹理、动作、人物、场景六大参考类型,还具备美容美发、增删改替换元素、风格切换、画面比例调整等精细化编辑功能,无需专业工具,适配漫剧、短剧、影视等生产级创作需求,用户可通过Vidu.cn或Vidu API体验,年卡会员享限时最低6折优惠。
蚂蚁灵波科技开源面向真实场景的深度补全模型「LingBot-Depth」
1月27日,蚂蚁灵波科技开源面向真实场景的深度补全模型「LingBot-Depth」,依托奥比中光Gemini 330系列双目3D相机研发验证,采用创新的掩码深度建模范式,在NYUv2等多个基准测试中核心指标达行业最优,具备优异的时间一致性与3D/4D环境感知能力,能有效解决透明、反光物体等复杂场景的深度感知难题,显著提升机器人抓取成功率,可轻量化端侧部署且适配现有消费级硬件,已与奥比中光达成战略合作,当前已开源模型、代码及技术报告,后续还将开放300万对RGB-深度数据,助力具身智能、自动驾驶等领域的大规模应用落地。
蚂蚁灵波科技全面开源「LingBot-VLA」具身大模型
1月28日,蚂蚁灵波科技宣布全面开源「LingBot-VLA」具身大模型,基于20000小时真实机器人训练数据(涵盖9种主流双臂机器人构型)训练,遵循良好的Scaling Law可扩展性,引入深度信息后在GM-100真机评测(跨本体泛化平均成功率达17.3%)和RoboTwin 2.0仿真评测中均表现领先,具备后训练成本低、效率高的优势,适配FSDP等优化以实现快速跨机器人迁移,此次同步开源模型权重、全套代码库、数据及技术报告等。
蚂蚁灵波科技开源可交互的世界模型「LingBot-World」
1月29日,蚂蚁灵波科技开源专为交互式世界模型设计的「LingBot-World」开源框架,其核心LingBot-World-Base由可扩展数据引擎驱动,通过从大规模游戏环境学习物理规律与因果关系,打造高保真、可控制且逻辑一致的模拟环境,在视频质量、动态程度、长时序一致性与交互能力等关键指标上居业界领先水平,具备近10分钟长时序一致性、16FPS生成吞吐与1秒内交互延迟的高保真实时交互、Zero-shot泛化等核心特性,可作为具身智能、自动驾驶及游戏开发领域的“数字演练场”解决真机训练数据稀缺问题,目前已开源模型权重、推理代码等。
MiniMax稀宇科技正式发布「Music 2.5」模型
1月29日,MiniMax稀宇科技正式发布「Music 2.5」模型,实现“段落级强控制”与“物理级高保真”双技术突破,支持Intro、Hook等14种结构变体的段落级精准控制,可让创作者调控情绪曲线、乐器配置等细节,同时通过华语音乐深度优化(覆盖多场景、咬字清晰)、具备转音颤音及共鸣切换的自然人声、风格化自动混音、100+乐器的录音室级混音等物理级保真升级,贴合专业工作流。
昆仑万维正式开源自研多模态视频生成模型「SkyReels-V3」
1月29日,昆仑万维正式开源自研多模态视频生成模型「SkyReels-V3」,支持参考图像转视频(支持1-4张参考图+文本提示,参考一致性与视觉质量指标超主流商用模型)、视频延长(支持单镜头及含五种专业转场的镜头切换双模式,突破时长与叙事边界)、音频驱动虚拟形象(具备高保真视觉合成、多风格兼容等四大能力,音视频同步效果优异)三大核心能力且支持灵活组合,通过多项技术创新实现专业级生成效果。
蚂蚁灵波科技开源全球首个自回归视频-动作世界模型「LingBot-VA」
1月30日,蚂蚁灵波科技推出开源周收官之作,全球首个自回归视频-动作世界模型「LingBot-VA」并全面开源(含模型权重、推理代码等),首次提出视频-动作一体化建模框架,融合MoT架构、闭环推演机制及异步推理与持久化等设计,兼具长时序记忆与少样本快速学习优势,能将世界模型预测能力转化为机器人行动能力,在真实环境多项高难度任务中成功率较业界基线平均提升20%,在仿真环境刷新RoboTwin 2.0和LIBERO基准纪录,衔接此前开源的LingBot系列模型,助力具身智能AGI生态构建。
AI Agent
讯飞开放平台焕新发布「星辰智能体平台」
1月26日,讯飞开放平台焕新发布「星辰智能体平台」,以多模协同为核心升级方向,打通AIUI平台实现智能体一键接入语音交互,具备极速响应与多模态感知输出能力,升级多模态超拟人交互技术(支持数字人形象声音定制、多人高噪场景交互),新增MBTI式人设定制(含一句话精调等多种精调方式)与RPA深度融合功能(智能组件、数据表格降低自动化门槛),还构建覆盖中东与东南亚市场的海外智能体矩阵,适用于工业、家庭、教育、企业服务等多场景,旨在打造具备“五官、手脚与个性”的“数字合伙人”,推动AI规模化落地并降本增效。
生数科技专为营销场景打造的「Vidu Agent 1.0」全球上线
1月28日,生数科技「Vidu Agent 1.0」全球上线,专为营销场景打造,支持“一张图+一句话”或“一个参考视频+一张图+一句话”一键生成15-60秒可直接投放的商业广告片,具备上传BGM、删减旁白、编辑Storyboard等灵活编辑功能,内置多语言、多音色、多模特、多场景海量素材库,依托7个专业AI智能体协同工作,适配电商、社媒、跨国营销等多类场景,已与京东、欧莱雅等众多品牌达成合作。
AI 工具
3D生成平台Hyper3D发布了「Rodin Gen-2」编辑版本
1月24日,3D生成平台Hyper3D发布了「Rodin Gen-2」编辑版本,推出基于自然语言的3D模型局部编辑功能,率先实现3D版Nano Banana,可上传obj、fbx、glb等格式的任意三方模型,通过局部选择实现添加、移除、修改等精准操作,且能保留拓扑结构、UV、骨骼绑定等3D资产关键信息,还具备图生3D、模型融合(Remix)功能,适用于游戏影视角色迭代、电商模型修改、3D打印等场景。
OpenAI推出专为科员人员打造的AI原生协作平台「Prism」
1月28日,OpenAI正式推出专为科研人员打造的AI原生协作平台「Prism」,该平台由GPT-5.2驱动,整合了实时协作、全局语境下的论文起草与修改、公式及图表智能处理(含白板图转TikZ图)、文献管理、语音编辑等功能,不限项目和协作人数,无需本地配置LaTeX环境,打破了传统科研工具碎片化的僵局,被认为将替代Overleaf、重塑科研工作流,降低科研工具使用门槛。
Vidu AI宣布将主体库全面升级为全球首个AI视频「主体社区」
1月29日,Vidu AI宣布将主体库全面升级为全球首个AI视频「主体社区」,创新“@一下”创作范式,用户可创建专属主体或自由调用社区内覆盖叙事、运镜、构图等八大维度的数字资产,支持主体的分享、交易与授权使用,既降低了专业视频创作门槛,又能实现好莱坞级视效呈现,让创意成为可持续变现的资产,用户可通过Vidu.cn或Vidu API体验。
技术突破
Google DeepMind联合伦敦、牛津大学发布时空重建框架「D4RT」
1月25日,Google DeepMind联合伦敦大学、牛津大学发布时空重建框架「D4RT」,以“按需查询”为核心逻辑,通过编码阶段压缩视频全局场景信息、解码阶段独立响应时空查询的架构,结合RGB Patch辅助与聪明收割机算法,实现动态场景的4D重建与追踪,支持点云、轨迹、相机参数等多任务统一接口,运算速度达200+FPS(比SOTA快9倍),在动态场景处理精度、多任务适配性上表现领先,高效解决了传统方法计算量大、动态场景易出错的痛点。
微软推出采用台积电3nm工艺制造的自研AI推理芯片「Maia 200」
1月27日,微软推出自研AI推理芯片「Maia 200」,采用台积电3nm工艺制造,拥有超1400亿颗晶体管,配备216GB HBM3e(读写速度7TB/s)及272MB片上SRAM,FP4精度下性能超10 PFLOPS、FP8精度下超5 PFLOPS且TDP控制在750W,性能优于AWS Trainium3和谷歌TPU v7,每美元性能较微软现有最新硬件提升30%,可支持GPT-5.2等模型,具备2.8TB/s双向扩展带宽,支持6144块芯片互连及基于标准以太网的双层可扩展网络设计,采用闭环液冷等方案,已部署于美国中部数据中心,后续将扩展至更多区域。