MIAOYUN | 每周AI新鲜事儿 251219

本周AI领域迎来密集更新,大模型方面,Runway、OpenAI、通义百聆、NVIDIA、阿里云、字节跳动、小米、腾讯、Meta、Google等先后推出或开源视频生成、世界模型、语音、音视频创作等相关模型,涵盖画质提升、多模态支持、高效推理等优势,部分模型引发争议;Agent方面,Google、商汤科技等发布研究、办公、营销等场景智能体;工具方面,腾讯元宝、OpenAI也更新工具功能,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

Runway升级发布「Gen-4.5」旗舰视频模型和首个通用世界模型「GWM-1」

12月12日,AI视频与多媒体生成领域独角兽Runway在Demo Day 2025上发布五大产品与研究更新,包括画质和创意控制能力突出、支持原生音频生成编辑及多镜头编辑的旗舰视频生成模型「Gen-4.5」,以及基于「Gen-4.5」构建、采用逐帧预测且支持用户干预的首个通用世界模型「GWM-1」,其包含可实时生成沉浸式可探索空间的「GWM Worlds」、为机器人训练提供合成数据的「GWM Robotics」、音频驱动的交互式视频模型「GWM Avatars」三种变体,此次更新标志着行业从“视频生成”迈向“世界模拟”。

OpenAI十周年发布「GPT-5.2」系列模型,缺乏共情力引发争议

12月12日,OpenAI十周年推出「GPT-5.2」系列模型,有Instant、和Pro三种版本,官方称其是“迄今为止在专业知识工作方面能力最强的模型”,多项基准测试刷新最优水平。但该模型上线仅24小时就遭到大量用户差评,认为其个性平淡、安全审查过度、缺乏共情力、“不通人性”等。在常识推理、部分简单问答和创作类任务表现不佳,使用成本还更高;同时其审查与安全拒绝机制过于严苛,对一些无害的学术内容转录、合理的历史人物匹配等请求都予以拒绝,折射出OpenAI在争夺企业市场与满足普通用户体验需求之间陷入难以平衡的困境。

OpenAI开源稀疏Transformer模型「Circuit-Sparsity」

12月15日,OpenAI开源稀疏Transformer模型「Circuit-Sparsity」,模型参数量仅0.4B,99.9%的权重为零,仅保留0.1%非零权重,解决模型可解释性问题。该模型通过动态剪枝、激活稀疏化、架构微调等技术,在内部形成紧凑可读的“电路”,让神经元激活具有明确语义,成功解决传统大模型“黑箱”问题、提升可解释性,且在相同任务损失下电路规模比密集模型小16倍,但存在运算速度较密集模型慢100至1000倍的计算效率瓶颈,目前难以直接应用于千亿参数级前沿大模型。

通义百聆语音双子星模型同步开源,覆盖多语种合成与高准度语音识别

12月15日,通义百聆语音双子星模型同步开源,包括「Fun-CosyVoice3(0.5B)」和「Fun-ASR-Nano(0.8B)」,前者完成首包延迟降低50%、中英混说准确率翻倍等升级,支持9语种18方言、跨语种克隆与情感控制,具备zero-shot音色克隆能力,可本地部署与二次开发;后者作为Fun-ASR的轻量化版本,推理成本更低,支持本地部署与定制化微调,而升级后的Fun-ASR模型则在噪声场景下识别准确率达93%,支持歌词与说唱识别、31语种自由混说、方言口音覆盖,流式识别首字延迟低至160ms,两款开源模型均已在魔搭、HuggingFace、GitHub等平台提供体验与下载渠道。

NVIDIA推出「NVIDIA Nemotron™ 3」系列开放模型、数据和库

12月15日,NVIDIA宣布推出「NVIDIA Nemotron™ 3」系列开放模型、数据和库,该系列包含Nano、Super和Ultra三种规模,采用突破性的异构潜在混合专家 (MoE) 架构,其中「Nemotron 3 Nano」的吞吐量较上代提升4倍,且能在大规模多智能体系统中实现领先的每秒生成token数;模型通过先进的强化学习技术及大规模并行多环境后训练,具备卓越准确率,同时以高开放性和透明度,直面企业从单模型对话机器人转向协作式多智能体AI系统时面临的通信开销、上下文漂移、高推理成本等挑战,为各行业专业代理式AI的透明、高效开发与部署提供助力。

通义万相发布国内首个支持角色扮演的视频模型「Wan 2.6」

12月16日,阿里云正式发布全新万相「Wan 2.6」模型,面向专业影视制作和图像创作场景进行了全面升级,是国内首个支持角色扮演、全球功能最全的视频模型。该模型集成多项创新技术,可实现画面到声音的全感官全维度一致性保持与迁移,支持单人和多人表演,具备音画同步、多镜头生成、声音驱动等功能,新增角色扮演和分镜控制能力,能一键完成单人/多人/人与物合拍视频及多镜头切换,单次视频时长达国内最高15秒,画质、音效与指令遵循能力进一步提升。

字节跳动发布音视频创作模型「Seedance 1.5 pro」,革新音视频联合生成体验

12月16日,字节跳动Seed团队正式发布新一代音视频创作模型「Seedance 1.5 pro」,支持音视频联合生成,能够执行多种任务,包括从文本到音视频的合成以及图像引导的音视频生成等。该模型具备精准音画同步、多语言及方言支持、电影级运镜控制、增强的语义理解与叙事协调性等优势,依托多模态联合生成架构、多阶段数据Pipeline等技术,在影视创作、广告生产、短剧生成等多个场景展现出良好的叙事表现力与视听融合度,综合评测中各项关键能力处于业界前列。

小米开源专为极致推理效率自研的MoE模型「MiMo-V2-Flash」

12月17日,小米开源专为极致推理效率自研的309B参数(激活15B)MoE模型「MiMo-V2-Flash」,该模型通过5:1比例的Sliding Window Attention与Global Attention混合架构、多层MTP推理加速技术及全新MOPD后训练范式,在多个Agent测评基准跻身全球开源模型Top 2,代码能力比肩Claude 4.5 Sonnet,且推理价格仅为其2.5%、生成速度提升2倍,同时具备优秀的Web开发、对话创作等能力。

腾讯发布开放实时体验的「混元世界模型1.5」,并开源全链路训练体系

12月17日,腾讯正式发布「混元世界模型1.5」(Tencent HY WorldPlay),这是国内首个开放实时体验的世界模型,用户只需输入文字描述或者图片即可创建专属的互动世界,通过键盘、鼠标等设备实现沉浸式实时探索,且离开后返回区域能保持场景前后一致,还可导出3D点云。该模型具备实时交互生成(24FPS生成720P高清视频)、长范围3D一致性、多样化交互体验三大核心能力,首次开源了涵盖数据、训练、推理部署全链路的实时世界模型训练体系,依托双分支动作表征等三大核心创新及3D奖励强化学习后训练框架破解技术难题,适用于游戏开发、影视制作、VR、具身智能研究等多个场景。

Meta开源音频分割模型「SAM Audio」,一键分离任意声音

12月17日,Meta开源音频分割模型「SAM Audio」,以PE-AV为核心技术引擎,基于流匹配扩散Transformer的生成式建模框架,融合先进数据引擎训练而成,支持文本、视觉、时间跨度三种提示方式(可单独或组合使用),能从复杂音频混合中分离任意声音,在多项任务上实现业界领先性能且运行速度快于实时处理(RTF≈0.7),同时Meta还同步发布了SAM Audio-Bench首个真实环境音频分离基准)、SAM Audio Judge(首个音频分离自动评测模型),并将所有成果整合进Segment Anything Playground供用户体验。

Google发布「Gemini 3 Flash」模型,速度快3倍全球免费开放

12月18日,Google正式发布「Gemini 3 Flash」模型,直接对标OpenAI和Anthropic的旗舰模型,官方号称比2.5 Pro速度快3倍,Token消耗减少三成,输入0.5美元/百万Token、输出3美元/百万Token的价格仅为Gemini 3 Pro的四分之一,同时在GPQA Diamond、MMMU Pro等多项基准测试中表现亮眼,具备自适应思考、多模态处理及优秀的智能体编码能力,可应用于视频分析、UI设计、搜索AI模式等多种场景,支持免费向全球用户开放,已嵌入Google搜索AI模式、Gemini APP等多平台。

「豆包大模型1.8」发布,多模态推理与Agent能力领先

12月18日,在火山引擎Force原动力大会上,「豆包大模型1.8」(Doubao-Seed-1.8)及音视频创作模型「Seedance 1.5 pro」正式发布。其中「豆包大模型1.8」面向多模态Agent场景优化,工具调用、复杂指令遵循等能力显著增强,多项评测表现达业界领先水平,已上线开放API;「Seedance 1.5 pro」原生支持音视频联合生成,在音画同步、多人多语言对白、影视级叙事张力等方面实现突破,已在豆包App(灰度测试)等多个平台上线试用。

AI Agent

Google推出全新版「Gemini Deep Research Agent」

12月12日,Google推出全新版「Gemini Deep Research Agent」,基于「Gemini 3 Pro」构建并通过多步强化学习训练提高准确性减少幻觉。 新版在Humanity’s Last Exam测试集中达到46.4%领先水平,在DeepSearchQA上取得66.1%,在BrowseComp测试中获得59.2%高分。并同步推出开源网络研究Agent基准DeepSearchQA和全新交互API,后者支持服务器端状态管理、远程MCP工具调用和后台执行长时间推理循环。

「Manus 1.6 Max」发布,从“辅助工具”变身“独立承包商”重塑工作流

12月15日,「Manus 1.6 Max」发布,实现了从“辅助工具”到“独立承包商”的质变,用户满意度提升19.2%。其核心亮点包括引入更高级规划架构的全新旗舰Agent,通过子Agent战群模式并行处理任务,能独立完成复杂Excel财务建模和数据分析。本次新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成中小型工具类App。此外还推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点。

阶跃星辰「Step-GUI」云端模型全量上新,多端适配快速部署

12月17日,阶跃星辰宣布「Step-GUI」云端模型全量上新,涵盖200+任务场景,支持手机、PC、汽车多端使用,具备更长推理步骤、更强语义理解与泛化能力,还推出首个GUI-MCP协议,可实现10分钟快速部署及端云协同的隐私可控使用,同时开放API免费使用并公开技术报告。

商汤科技启动「2025产品发布周」,连发多款AI产品

12月15日至19日,商汤科技正式启动「2025产品发布周」,连续发布多款兼具开创性与实用性的AI产品,包括多剧集生成智能体「Seko2.0」、AI办公智能体「小浣熊3.0」、「如影营销智能体」、「开悟世界模型3.0」、「咔皮记账APP」等。

商汤科技推出行业首个创编一体、多剧集生成智能体「Seko2.0」

12月15日,商汤科技推出行业首个创编一体、多剧集生成智能体「Seko2.0」,实现全新UI升级,支持100集以内剧本连续创作及Agent智能调度,通过SekoIDX 技术破解多剧集跨分镜角色一致性难题,借助SekoTalk攻克多人对口型难题,结合Phased DMD蒸馏技术和开源推理框架LightX2V降低创作成本、提升效率,漫剧制作周期可缩短80%~90%,且LightX2V已适配国产芯片实现全国产化部署。

商汤科技发布AI办公智能体「小浣熊3.0」

12月16日,商汤科技正式发布AI办公智能体「小浣熊3.0」,该产品已拥有300万+注册用户,此次升级实现三大跃迁:交付上从生成“草稿”到一键生成高质量PPT,支持图文等元素快速编辑;理解上具备长链条思考能力,可秒级处理百万级数据量,实现多模态、多源关联分析;工作流上融入企业场景,支持跨平台任务处理,移动端同步上线,企业侧落地精度达95%+。

商汤科技推出「如影营销智能体」

12月17日,商汤科技正式推出面向电商运营场景的「如影营销智能体」,是新一代电商AI增长引擎,由店铺运营、直播运营、流量投放、直播场控四个电商Agent及数字人Agent组成“五大智能体矩阵”,覆盖电商全链路运营,可实现数据自动同步、联动响应,无需人工介入。其中店铺运营Agent单任务平均提效20倍,直播运营Agent提效6倍,流量投放Agent提效5倍,直播场控Agent能让主播自助完成场控操作,数字人Agent可实现“当日复刻当日播”。该智能体依托商汤日日新大模型及国产化硬件支持,能实现多维度提效,推动电商增长从“人力驱动”转向“智能驱动”。

大晓机器人发布具身智能三大核心成果,共建生态助力规模化落地

12月18日,大晓机器人正式发布行业首创的ACE具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0)、让具身本体拥有自主空间智能的具身超级大脑模组A1。其中ACE范式以环境式数据采集为引擎,构建“数据采集-世界模型-具身交互”全链路技术体系,可实现千万小时数据收集,开悟世界模型3.0具备多模态理解-生成-预测能力,已适配多款国产芯片并开源开放API,具身超级大脑模组A1依托纯视觉无图端到端VLA模型等优势,实现自主空间智能与云端交互,适配多行业超150个应用场景。

商汤科技推出全新升级的「咔皮记账 APP」

12月19日,商汤科技推出全新升级的「咔皮记账APP」,这款基于日日新多模态大模型打造的AI原生财务Agent工具,聚焦年轻人手工记账繁琐、预算难执行、超支无提醒、报表看不懂等财务痛点,提供AI自动记账(拍小票、截账单、语音录入即可完成)、智能预算规划(按5/3/2法则及用户消费习惯生成个性化方案)、超支与订阅/还款提醒、深度消费洞察分析(支出占比、趋势预测及优化建议)全流程服务。

AI 工具

腾讯元宝推出「写作模式」,边聊边写30分钟产出万字长文

12月15日,腾讯元宝推出「写作模式」,多端(App/电脑/网页版)操作便捷,支持用户边聊天边创作中长篇小说,用户只需提供故事主题、脑洞等简单信息,元宝便能自动补全剧情、人设、大纲,还可细化章节情节、调整大纲或直接生成全文,创作效率极高,30分钟可写出5万字,14分钟能完成3万字作品,并支持将长稿一键导出至本地文档或腾讯文档。

OpenAI推出新版「ChatGPT Images 」,多项能力升级且API降价20%

12月17日, OpenAI推出新版「ChatGPT Images 」,由全新的旗舰图像生成模型「GPT Image 1.5」驱动。该模型在精准修图(可实现添加、删减等多种编辑操作且保留原图关键要素)、指令遵循能力、生成速度(提升4倍)、文本渲染、画质等方面均有显著升级,还推出了无需提示词的全新交互方式(内置数十种预设滤镜和提示且定期更新),在LMARENA.AI的文本到图像排名中位列第一,且API价格直降20%。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×