本周AI行业动态密集,大模型领域,Vidu、NVIDIA、Google、阶跃星辰、智谱、xAI、面壁智能、阿里、快手等相继发布或开源新模型,聚焦专业场景刷新SOTA;AI工具方面,Chrome接入Gemini 3、Codex App等重塑交互体验;AI Agent赛道,QoderWork、Skywork桌面版及PaperBanana落地实用场景;技术层面,腾讯混元发布CL-bench基准与HPC-Ops算子库;市场侧,生数科技启动生态计划,SpaceX收购xAI形成千亿估值整合引擎,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
生数科技发布全球首个支持16s音视频直出的模型「Vidu Q3」
1月30日,生数科技全球发布「Vidu Q3」,是全球首个支持16s音视频直出的模型,专为漫剧、短剧、影视剧而生,具备多镜头自由切换、声画同步、多语种对话与文字渲染等功能,可实现电影级质感“一键成片”,赋能行业工业化生产,在Artificial Analysis榜单中位列中国第一、全球第二,超越Runway Gen-4.5、OpenAI Sora 2等模型,目前可通Vidu.cn或API抢先体验,年卡会员享限时最低6折优惠。
NVIDIA发布「NVIDIA Earth-2」开放模型家族
1月30日,NVIDIA发布全新的「NVIDIA Earth-2」开放模型家族,是全球首个完全开放、加速的AI气象软件堆栈,包含中期预报、临近预报、全球数据同化等全新模型及CorrDiff、FourCastNet3等现有模型,还集成多方开放模型,可通过PhysicsNeMo框架训练微调,能加速从数据处理到15天全球预报或6小时局地强对流预报的全流程,节省计算成本且精度领先,已被气象、能源、保险等领域机构应用,相关会议GTC将于3月16-19日举行。
Google DeepMind宣布「Genie 3」世界模型开启公测
1月31日,Google DeepMind宣布「Genie 3」开启公测,这款由Genie 3、Nano Banana Pro和Gemini驱动的网页原型应用,支持美国18岁以上Google AI Ultra订阅用户通过文字或图片生成实时互动虚拟世界,具备探索、二创、角色控制、物理效果、场景记忆及深渊重生等功能,网友实测可应用于游戏、教育等场景。
阶跃星辰发布开源Agent基座模型「Step 3.5 Flash」
2月2日,阶跃星辰发布开源Agent基座模型「Step 3.5 Flash」,采用稀疏MoE架构、MTP-3及SWA+Full Attention混合架构,支持256K上下文,推理速度最高达350 TPS,在Agent场景、数学及编程任务上媲美闭源模型,能稳定处理复杂长链条任务,现可通过OpenRouter限免、GitHub、HuggingFace等渠道获取,支持个人工作站本地部署,可应用于数学计算、智能体编程、端云协同等场景,同时透露已启动Step 4模型训练。
智谱发布并开源轻量专业级OCR模型「GLM-OCR」
2月3日,智谱发布并开源轻量专业级OCR模型「GLM-OCR」,以“小尺寸、高精度”实现文档解析能力新标杆。该模型仅0.9B参数规模实现性能SOTA(OmniDocBench V1.5达94.6分),在手写体、复杂表格、代码文档等多高难场景表现稳健,推理高效且支持多平台部署,开源易用、环境依赖简单,具备精准识别、结构化输出、批量处理及RAG支持等功能,处理速度快且成本仅为传统方案的1/10,同步开放开源地址、API及在线体验渠道,未来还将迭代更多版本并拓展语言与视频OCR能力。
马斯克xAI全面上线视频音频生成模型「Grok Imagine 1.0」
2月3日,马斯克旗下xAI全面上线视频音频生成模型「Grok Imagine 1.0」,支持文生视频、图生视频,单次生成10秒720P视频,音频效果大幅提升,还具备视频剪辑能力(可加删替换元素、用动作驱动角色动画、切换场景氛围、修改物体细节及视觉风格,静态线稿也能转动画),过去30天测试期已生成12.45亿条视频;在Artificial Analysis文生视频排名中综合第一,成本与延迟最优,图生视频亦保持高评分+低延迟+低成本优势。
阿里开源专为编程智能体与本地开发设计的模型「Qwen3-Coder-Next」
2月4日,阿里通义千问开源专为编程智能体与本地开发设计的模型「Qwen3-Coder-Next」,总参数80B激活参数仅3B,支持256k上下文。该模型基于「Qwen3-Next-80B-A3B-Base」构建,采用混合注意力与MoE新架构,通过大规模可执行任务合成、环境交互等智能体训练,在SWE-Bench等基准上表现优异(Verified版本达70%+),3B激活参数即可匹敌更大规模开源模型,处于低成本部署帕累托前沿,已在ModelScope和Hugging Face开源,未来将提升推理决策能力并支持更多任务。
面壁智能开源9B参数原生全双工全模态模型「MiniCPM-o 4.5」
2月4日,面壁智能开源9B参数原生全双工全模态模型「MiniCPM-o 4.5」,以“边看、边听、主动说”成为行业首个“即时自由对话”的大模型,告别回合制交互,在全模态理解、语音生成(情感饱满、长语音稳定)、声音克隆等方面达SOTA水准,推理效率高且显存占用低,支持多芯片多框架部署,已在GitHub、Hugging Face等平台开源并提供线上体验,2月7日将举办技术分享Meetup。
上海人工智能实验室开源科学多模态大模型「Intern-S1-Pro」
2月4日,上海人工智能实验室开源基于“通专融合”技术架构SAGE打造的万亿参数科学多模态大模型「Intern-S1-Pro」,采用MoE结构与傅里叶位置编码等底层创新,科学能力达国际领先水平、通用能力与智能体能力稳居开源第一梯队,且实现了原创架构与国产算力的全栈适配,通过开源全链路工具与免费商用支持,降低全球科研门槛,助力AI4S迈向2.0时代并共建AGI4S生态。
快手发布「可灵AI 3.0」模型,实现多模态输入输出一体化与全链路创作
2月4日,快手发布「可灵AI 3.0」模型(含图片3.0、视频3.0及视频3.0 Omni),实现多模态输入输出一体化与全链路创作,黑金会员可在web端超前体验;视频3.0及Omni版本带来智能分镜、图生视频+主体参考、多语种方言对口型、15秒时长、自定义分镜等升级,图片3.0及Omni版本则具备影视级光影重构、组图批量创作、2K/4K超清直出、多参考图一致性强化等优势,全方位提升创作效率与作品质感。
AI 工具
Google宣布Chrome全面接入「Gemini 3」,38亿用户迈入AGI浏览新纪元
2月1日,Google宣布桌面端Chrome浏览器(覆盖MacOS、Windows和Chromebook Plus)全面接入「Gemini 3」,让全球38亿用户的浏览器升级为全能AGI入口,新增全新侧边栏(支持无缝多任务)、自动浏览(处理比价、行程规划等复杂流程,需美国Google AI Pro/Ultra订阅)、内嵌Nano Banana实时修图功能,且打通Gmail、地图等谷歌生态应用,未来还将上线「个人智能」功能,重塑人与浏览器的交互范式,挑战Perplexity Comet、OpenAI Atlas等竞品。
蚂蚁灵光APP宣布「闪应用」升级,集成音效、LLM调用等20项API工具
2月2日,蚂蚁灵光APP宣布「闪应用」迎来大升级,集成音效合成、LLM调用、多模态理解等近20项API工具,新增新年祝福语生成、食物保鲜记录、垃圾分类识别、AI科技新闻浏览等多项实用功能,同时推出“上传图片生应用”及小组件形式的“闪应用导出”功能,进一步丰富用户使用场景。
OpenAI发布macOS桌面版「Codex App」
2月3日,OpenAI发布macOS桌面版「Codex App」,定位“Agent的指挥中心”而非传统IDE,支持管理多Agent并行工作,产品内置Git Worktree支持多Agent同仓库隔离协作、引入Skills系统(打包指令工具以扩展能力,可独立生成3D赛车游戏等)、Automations定时自动任务(含9个预设模板)、每个线程独立终端,还支持两种个性模式及开源安全沙箱;该App与Codex CLI/IDE插件同步会话配置,ChatGPT付费用户可直接使用且rate limits翻倍,未来将推出Windows版本并优化多Agent工作流。
腾讯ima宣布正式接入「混元图像3.0」图生图模型
2月3日,腾讯ima宣布正式接入「混元图像3.0」图生图模型,支持上传图片+输入指令生成或修改图片,可设置尺寸与风格,能满足娱乐(定制旅游照、四格漫画)、工作(设计海报)、科普(医疗知识配图)、生活(家装预览)等多场景需求,还可同步笔记生图、边写文案边配图,升级至最新版本即可体验。
AI Agent
阿里推出首个桌面Agent工具「QoderWork」,一句话即可完成复杂任务
1月30日,阿里推出旗下首个桌面Agent工具「QoderWork」并开启邀测。该工具支持本地执行任务(保障数据安全)、自主规划流程,依托MCP协议与自定义Skills,可高效完成文件整理、万级数据统计、报告/PPT生成、科研文献引用整理、行程规划等多类办公任务。用户无需任何复杂部署工作,输入一句话,就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
昆仑万维面向全球发布Windows系统兼容的「天工Skywork桌面版」
2月4日,昆仑万维面向全球发布Windows系统兼容的「天工Skywork桌面版」,是Skywork 2.0体系的核心组成,支持本地执行任务(无需上传文件),兼容Claude与Gemini模型并可智能推荐,集成100+Skills,能跨格式理解处理文档、图片等多模态文件,实现多任务并行,在图像视频生成质量、处理速度上优于Claude Cowork,且通过本地虚拟机隔离保障安全,定位为OS级AI办公助手,用户可通过官网下载并开通会员使用。
GitHub官宣通过Agent HQ平台集成Claude与Codex两大编程AI
2月5日,微软GitHub官宣通过Agent HQ平台集成Claude与Codex两大编程AI,与Copilot形成“三足鼎立”,Copilot Pro+及Enterprise订阅用户可在GitHub网页端、VS Code、移动端原生调用,无需切换工具即可完成编码、修Bug、PR评审等任务,兼顾上下文连续性与可评审性,还能为组织提供权限管控、代码质量评估等能力,标志着AI编程迈入多智能体协同的平台级时代,助力全球1.8亿开发者提升效率。
Google联合北大推出学术绘图智能体框架「PaperBanana」
2月5日,Google联合北大团队推出学术绘图智能体框架「PaperBanana」,基于Nano Banana Pro构建,通过“检索、规划、审美、绘图、审查”5个智能体协同工作,严格对齐NeurIPS审美标准,可全自动生成发表级方法架构图(位图)和统计图表(调用Matplotlib代码保障数据精准),还支持草图风格润色,在忠实度、简洁性等指标上优于基线模型且接近人类绘图水平,但存在位图不可无损编辑、复杂场景偶有连线/节点错误的局限,核心代码和数据集预计2周后开源。
技术突破
腾讯混元联合发布「CL-bench」基准,直指语言模型Context学习核心短板
2月3日,腾讯混元姚顺雨团队联合复旦大学发布了最新研究成果,指出当前前沿语言模型依赖预训练参数化知识,缺乏从动态、复杂Context中实时学习的能力,为此构建了「CL-bench」基准(含500个复杂Context、1899个任务,涵盖4类现实场景,采用无污染设计),评测显示10个顶尖模型平均仅解决17.2%任务,忽略或误用Context是主要失败原因,归纳推理难度高于演绎应用,未来需提升模型Context学习与知识持久化能力,推动人类从数据提供者转变为Context提供者。
腾讯混元开源生产级LLM推理核心算子库「HPC-Ops」
2月4日,腾讯混元AI Infra团队开源生产级LLM推理核心算子库「HPC-Ops」,基于CUDA和CuTe构建,针对主流算子库使用成本高、目标硬件不匹配的痛点,通过任务与硬件能力对齐、精细调度数据重排、聚焦计算逻辑等优化,实现显著性能突破:混元模型推理QPM提升30%,核心算子Attention、GroupGEMM、FusedMoE性能最高分别超SOTA方案2.22倍、1.88倍、1.49倍,且适配主流推理框架、支持多精度量化、降低开发门槛,未来将深耕稀疏Attention、更多量化策略及计算-通信协同优化。
市场动态
生数科技正式启动「全球生态计划」,1亿积分+千万奖金赋能创作者
1月31日,生数科技正式启动「全球生态计划」,以“1亿积分+千万奖金”赋能创作者与合作伙伴,面向创作者推出全球创作者激励计划(包含艺术家计划2.0、社群合作、认证讲师体系),面向合作伙伴启动涵盖解决方案、渠道销售、交付成功三类伙伴的生态伙伴计划(提供免费资源池与四项合作权益)。
马斯克宣布SpaceX收购xAI,合并估值1.25万亿美元
2月3日,马斯克官宣SpaceX完成对xAI的收购,合并后新公司估值达1.25万亿美元,将打造涵盖AI、火箭技术等的垂直整合创新引擎;马斯克计划推进太空轨道数据中心部署,发射百万颗卫星以获取低成本算力,助力迈向卡尔达肖夫二级文明,而xAI作为SpaceX全资子公司,将获得稳定资金支持,无需再焦虑融资,此次合并也为SpaceX冲刺IPO添力。