本周AI领域热点频出:大模型方面,谢赛宁团队、小红书、颜水成团队、Google、NVIDIA、VAST相继发布或开源新模型,涵盖世界模型、图像编辑、多模态嵌入、3D生成等多个方向;AI Agent领域,小米Xiaomi miclaw开启邀测,智谱AutoClaw、腾讯“龙虾特工队”、微软Copilot Cowork、阶跃星辰StepClaw等密集上线;工具与技术上,港大开源CLI-Anything、腾讯混元提出HY-WU与WorldCompass框架、Karpathy开源autoresearch;市场层面,追觅发布芯片品牌NXMIND,工信部针对OpenClaw发布“六要六不要”安全使用指南,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
谢赛宁团队开源首个多人视频世界模型「Solaris」
3月7日,谢赛宁团队开源首个多人视频世界模型「Solaris」,该模型以《我的世界》为实验基础,可在给定各玩家历史观察与动作的条件下,联合预测多名玩家保持一致的未来第一视角;团队自主构建了多人数据采集系统SolarisEngine,采集了包含9240个任务回合、总计1264万帧的多人Minecraft训练数据集(涵盖建筑、战斗等四大类任务),并基于MatrixGame 2.0进行三项关键改进以支持多人模式;通过Solaris Eval数据集测试模型的移动、定位、一致性等五种多人协作能力,实验结果显示,「Solaris」在视觉效果和多数定量指标上优于现有多人世界模型及无单人预训练的变体,尤其在建筑、场景一致性等复杂场景中表现突出,相关模型、代码、数据集均已开源。
小红书推出图像编辑模型「FireRed-Image-Edit v1.1」
3月8日,小红书推出图像编辑模型「FireRed-Image-Edit v1.1」,距1.0版本发布不足一个月,该模型在ID一致性编辑、多元素融合、人像美妆、字体风格参考、老照片修复等方面性能升级,具备骨干无关的架构设计,可迁移至任意文生图基础模型,还通过开放LoRA训练生态、极限速度优化、智能Agent工作流等实现极致工程优化,仅需30GB显存即可4.5秒端到端生成,支持全平台部署;同时提供makeuplora和covercraftlora两类自主创作LoRA,在多项榜单中达到SOTA水平,相关代码、技术报告、模型参数等已全部开源,用户可通过指定链接体验。
首个视觉先验统一离散扩散模型「Muddit」发布,打通文生图与图生文
3月10日,颜水成团队在ICLR’2026发布首个基于视觉视觉先验统一离散扩散模型「Muddit」,它打破行业“语言中心论”,以视觉先验为基础,采用全离散扩散框架,将文本和图像均转化为离散token,通过共享的MM-DiT骨干网络统一处理文生图、图生文及视觉问答任务。该模型仅1B参数,在多项基准测试中表现优异,且依托视觉先验和统一范式,用少量数据就实现高效训练,将多模态模型研发从语言优先转向视觉优先,为下一代多模态基础模型提供了全新思路。
Google发布首个基于Gemini架构的原生多模态嵌入模型「Gemini Embedding 2」
3月11日,Google发布首个基于Gemini架构的原生多模态嵌入模型「Gemini Embedding 2」,现已通过Gemini API和Vertex AI向开发者开放预览,该模型可将文本、图像、视频等多类数据映射至统一嵌入空间,还支持交错输入,采用MRL技术可动态压缩向量维度,且对不同类型输入均有明确的支持范围,能大幅简化多模态AI系统架构。在多语言、代码语义理解、跨模态检索等多项基准测试中表现领先,早期合作方实测显示该模型能提升搜索精准度,实现70%延迟降幅,文本-图像/视频语义相似度得分近乎翻倍;该模型还因提升企业工程效率、打破模态孤岛,被开发者社区认为树立了多模态RAG全新行业基准。
NVIDIA发布开源AI模型「Nemotron 3 Super」成OpenClaw最强开源模型
3月12日,NVIDIA推出开源AI模型「Nemotron 3 Super」,专为大尺度AI智能体打造,1200亿参数搭配100万token上下文,采用创新Mamba-MoE混合架构实现推理、吞吐量大幅提升,OpenClaw任务成功率85.6%比肩Claude Opus 4.6等顶尖模型,破解了多Agent应用的核心瓶颈。该模型经25万亿Token分阶段训练,各基准测试表现优异,工具调用能力突出,相关数据与训练方法已开源,多家企业机构已接入。NVIDIA还计划五年投260亿美元打造开源模型,并正研发面向企业、内置安全隐私工具的开源AI智能体平台「NemoClaw」,布局企业级OpenClaw市场。
VAST推出的AI 3D大模型「Tripo P1.0」,2秒生成专业级3D资产
3月12日消息,近期VAST首席科学家曹炎培揭秘了VAST最新上线的Smart Mesh功能及背后的AI 3D大模型「Tripo P1.0」,该模型重构了AI 3D生成底层算法范式,首次在原生三维空间实现概率生成,采用整体建模方式,2秒内可生成拓扑干净、布线稳定的专业级3D资产,速度较市面方案提升百倍以上,能解决复杂拓扑结构生成难题,整体效果达三五年经验设计师90%水平,生成资产为原生三角网格可直接使用。且透露VAST近期完成5000万美元A轮融资,未来还将攻坚3D模型原生动态和可交互性技术难题
AI Agent
小米基于MiMo模型打造的移动端AI Agent产品「Xiaomi miclaw」开启邀测
3月6日,小米基于MiMo大模型打造的移动端AI Agent测试产品「Xiaomi miclaw」开启小范围邀请制封测,该产品聚焦验证大模型在小米“人车家全生态”的系统级执行能力,拥有系统底层、个人上下文理解、生态互联、自进化四大核心能力,能以系统应用身份调用50+系统级工具,通过推理-执行引擎自主完成操作,还可基于用户授权理解个人使用习惯并保障数据安全,同时接入小米IoT生态并开放第三方接入通道,更具备文件级记忆等元能力实现自我成长;此外,产品还展示了欢迎回家、体重控制等多个实际应用场景,真正让手机成为AI的一部分。
智谱正式上线国内首个一键安装的本地版OpenClaw「AutoClaw」
3月10日,智谱正式上线国内首个一键安装的本地版OpenClaw「AutoClaw」(澳龙),支持macOS和Windows系统,预置50+覆盖多高频场景的热门Skills,可一键接入飞书等即时通讯工具,还开放模型接入并提供免费额度与多梯度付费积分包;该产品内置专为OpenClaw场景优化的内测模型Pony-Alpha-2,工具调用稳、响应快,同时集成AutoGLM Browser-Use能力,能完成复杂浏览器操作,大幅降低OpenClaw使用门槛,推动“人人养龙虾”的AI平权愿景,用户可通过指定链接下载体验。
腾讯推出具备持续记忆与实际任务执行能力的“龙虾特工队”AI Agent产品矩阵
3月10日,腾讯正式推出具备持续记忆与实际任务执行能力的“龙虾特工队”AI Agent产品矩阵,为个人、开发者、企业级用户打造了专属的“养虾”方案,个人用户可使用零配置下载即用的「WorkBuddy」和内测中可微信远程操控的「QClaw」,开发者与企业用户则有腾讯云「Lighthouse」、智能体开发平台「ADP」、腾讯云桌面等云端解决方案可选;该矩阵还上线了含1.3万个本土化技能的SkillHub技能社区,实现与企业微信、腾讯乐享知识库的深度融合,同时通过腾讯电脑管家的“龙虾管家”隔离房和腾讯云的AI Agent安全中心,分别为本地和云端使用场景做好安全防护,全方位降低AI使用门槛,让AI真正融入各类工作流。
微软推出AI智能体「Copilot Cowork」,接入Anthropic的Claude模型
3月10日,微软推出AI智能体「Copilot Cowork」全面接管Excel、Word、PPT和Outlook,接入Anthropic的Claude模型作为执行层核心,而非OpenAI GPT,打造企业AI“多模型”布局,该工具可在Microsoft 365生态后台自主运行,能完成日程整理、会议资料准备、企业调研、产品发布规划等全流程办公任务,用户可把控关键节点;其纳入30美元/用户/月的M365 Copilot企业版,微软还将上线相关智能体管理平台和整合套件,不过该工具暂不支持本地使用、缺乏第三方原生集成;目前微软Copilot付费席位增长显著,《财富》500强九成企业已启用,为4.5亿M365用户带来可执行工作的“数字同事”,推动AI从办公辅助走向实际执行。
腾讯云旗下AI原生桌面智能体工作台「WorkBuddy」新增微信一键直连功能
3月12日,腾讯云旗下AI原生桌面智能体工作台「WorkBuddy」(腾讯版小龙虾)迎来更新,新增微信一键直连功能,用户三步即可完成配置,实现微信远程遥控电脑执行查资料、处理文件等操作且全程本地运行保障隐私,同时优化企业微信接入方式,支持WebSocket长链接且断连自动重连,还新增自动化任务执行和监控追踪能力,可实现日报周报生成、信息抓取等工作的自动化运行,能追踪任务进度并自动推送PDF等交付物,大幅降低了“养虾”门槛,个人和企业用户均可下载体验,目前还能限时免费领取5000 Credits。
阶跃星辰推出基于OpenClaw打造的云端AI助手「StepClaw」
3月12日,阶跃星辰推出基于OpenClaw打造的云端AI助手「StepClaw」(阶跃龙虾),该工具可在阶跃AI APP一键部署调用,无需额外配置电脑,配备双核CPU、4GB内存和40G存储空间,能流畅执行复杂任务且有长期记忆能力,7×24小时云端在线,其搭载的Step 3.5 Flash模型登顶OpenClaw调用量月榜,还集成了自研搜索工具和丰富技能库;目前StepClaw开放50000个免费一键部署体验名额,限时免费一个月,0成本体验可享5000万模型Tokens、云服务器和存储全包权益,仅需三步即可完成配置,现阶段可在阶跃AI APP使用,3月13日其网页版也将支持部署和使用,名额有限先到先得。
AI 工具
港大开源「CLI-Anything」,一行命令让软件变身AI Agent原生工具
3月10日,港大HKUDS团队开源了「CLI-Anything」项目,针对多数专业软件无适配CLI、AI Agent仅能低效操作的痛点,可通过一行命令为各类开源软件生成生产级CLI,以CLI为桥梁让AI Agent无损调用真实软件功能,刚开源便获GitHub 1.4K Star。项目具备7阶段自动化生成CLI、直连真实软件无妥协、纯命令行告别脆弱UI自动化、结构化输出适配Agent、9款软件1436项测试100%通过等核心亮点,上手简单且在文档生成、3D渲染等场景已有实际应用,适用范围覆盖开源项目、AI/ML流水线、数据分等多类软件;团队还将进一步拓展其适配范围与集成能力,为Agent时代软件使用提供了新方法论。
杰创智能发布业内首个企业级“龙虾云桌面”「NexClaw View」
3月12日,杰创智能发布业内首个企业级“龙虾云桌面”「NexClaw View」,该产品由NexClaw企业级AI智能体平台与常青桌面云产品深度融合而成,针对OpenClaw在企业使用中存在的安装复杂、安全风险、成本较高、环境易丢失等痛点,内置文档处理、数据分析等多种办公场景技能包,具备四层安全防护体系、本地推理数据不出域、云桌面架构降本、自带备份恢复等核心优势,支持私有化部署与跨终端使用,为企业提供安全可控、开箱即用的AI智能体解决方案。
技术突破
腾讯混元发布技术报告提出「HY-WU」(无相)功能性记忆新范式
3月6日,腾讯混元发布技术报告提出「HY-WU」(无相)功能性记忆新范式,打破传统静态权重局限,通过推理时实时生成个性化参数实现模型动态“换脑”,从根源解决灾难性遗忘、性能跷跷板等问题,兼具端到端训练、部署灵活等实用优势;该范式应用于800亿参数的图像编辑模型后,在个性化场景表现突出,严苛评测中人类评价比肩闭源旗舰,多项权威自动化榜单斩获开源模型第一,且普适性强、遵循规模法则;团队还围绕检索与功能记忆协同、跨模态通用等六大方向,描绘了功能性神经记忆核心的未来AI路线图,为大模型提升灵活性与智能性奠定基础。
Karpathy开源「autoresearch」,单GPU运行自我迭代AI智能体
3月8日,Karpathy推出并开源「autoresearch」项目,将自我迭代智能体部署在单个GPU上,打造出AI自主进行LLM研究实验的新范式;该项目以极简大模型训练框架nanochat为基础,把其训练代码简化为单GPU、630行左右的版本,由人类迭代提示词(.md文件),AI智能体自主迭代训练代码(.py文件),智能体会在夜间自动修改代码、训练模型5分钟并验证性能,保留有效改进、丢弃无效修改,还会生成完整实验记录;这一模式让人类聚焦研究系统设计、AI负责实验执行,也让未来AI研究竞争或转向“研究组织代码”,而轻量的nanochat也成为LLM相关教学、实验的理想起点,其训练耗时也已大幅缩短。
腾讯混元开源业界首个面向世界模型的强化学习后训练框架「WorldCompass」
3月10日,腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架「WorldCompass」,作为混元世界模型1.5的官方扩展模块,其针对现有生成式世界模型依赖像素级监督、复杂动作指令执行差、长时序交互画质崩坏等痛点,通过切片级采样、3D奖励函数、高效RL优化算法三大核心创新,引入显式奖励对预训练模型进行微调;该框架在WorldPlay等模型上验证有效,使复杂组合动作交互准确率从25%提升至55%,基础动作准确率提升约10%,在斯坦福WorldScore基准中表现优异,标志着世界模型从“预训练时代”迈入“RL精细化调优时代”,相关代码、模型细节及技术报告已开源。
市场动态
追觅发布芯片品牌芯际穿越「NXMIND」,布局AI时代下一代AI计算赛道
3月11日,追觅发布芯片品牌芯际穿越「NXMIND」,布局AI时代下一代AI计算赛道,推出涵盖多领域的算力产品矩阵,包括采用自研NPU架构、GPU性能强悍的手机芯片「赤霄01」,2nm制程、算力2000TOPS且能支撑L4级自动驾驶的舱驾一体智驾芯片,已量产、为行业集成度最高SoC的天穹系列泛机器人芯片;还发布了由200万颗算力卫星组成、卫星可靠性和寿命达行业2倍的太空算力中心,以及算力1.5PFLOPS、可本地调试百亿参数大模型的个人超级AI电脑,其中瑶台系列自研太空算力盒将于近期发射开展在轨验证。芯际穿越负责人傅海洋表示,时代和赛道的变革让算力领域定义权易手,未来会有更多中国芯实现超越。
工信部发布OpenClaw“龙虾”安全使用指南,明确“六要六不要”
3月12日,工信部针对OpenClaw(“龙虾”)开源智能体,结合其智能办公、开发运维、个人助手、金融交易四大典型应用场景的不同安全风险(如供应链攻击、信息泄露、账户被接管等)给出了对应的应对策略,并发布了安全使用的“六要六不要”建议,涵盖使用官方最新版本、严控互联网暴露面、坚持最小权限原则、谨慎使用技能市场、防范社会工程学攻击和浏览器劫持、建立长效防护机制六大方面,同时还给出了部分安全基线及配置参考。