MIAOYUN | 每周AI新鲜事儿 260228

马跃新春,万里乘风!2026马年春节期间AI领域新品集中亮相:小米、小红书、阿里、Google、DeepSeek等发布大模型,覆盖机器人、图像、多模态、音视频生成等方向,性能与成本均有突破;MiniMax、Perplexity、华为云升级AI Agent,强化专家创建、全流程处理与智能编码能力;智谱公布GLM-5技术细节,DeepSeek提出双路径KV-Cache加载机制,V4模型即将上线,一起来回顾春节期间发生的AI新鲜事儿吧!

AI 大模型

小米开源首代机器人VLA大模型「Xiaomi-Robotics-0」

2月12日,小米开源首代机器人VLA大模型「Xiaomi-Robotics-0」,拥有47亿参数,采用MoT混合架构(VLM视觉语言大脑+DiT动作执行小脑),通过跨模态预训练与后训练(含异步推理、Clean Action Prefix等技术)兼顾通用理解与精细控制,在LIBERO、CALVIN等三大仿真测试中刷新SOTA,在积木拆解、叠毛巾等真机任务中表现出高协调性与流畅性,且能在消费级显卡上实时推理,目前技术主页、开源代码及模型权重已对外开放。

小红书技术团队开源图像编辑模型「FireRed-Image-Edit」

2月12日,小红书技术团队发布图像编辑模型「FireRed-Image-Edit」并开源相关代码、技术报告及demo网页,模型权重即将开放,该模型通过创新数据生产引擎与三阶段训练,在ImgEdit、GEdit等多项权威榜单中斩获SOTA,指令遵循、ID保持及文字编辑能力突出,支持增删改、风格化转换、画质修复等多场景编辑需求,团队还推出了含15个子任务的RedEdit Bench深度评测方案,后续将持续迭代并开源文生图基座模型。

稀宇科技发布「MiniMax M2.5」模型,在编程、工具调用能力等刷新SOTA

2月13日,稀宇科技发布「MiniMax M2.5」模型,在编程、工具调用、搜索、办公等生产力场景多项评测中达到或刷新行业SOTA,相比上一代M2.1完成复杂任务速度提升37%,且成本极低,每秒输出100/50个token时连续工作一小时仅需1美金/0.3美金;该模型具备架构师级编程能力、高效搜索与工具调用能力及专业办公产出能力,依托原生Agent RL框架Forge实现能力快速迭代,已全量上线MiniMax全线产品,模型权重将在HuggingFace开源支持本地部署,内部业务中已自主完成30%任务,编程场景新提交代码占比达80%。

火山引擎「豆包大模型2.0」系列正式上线,四款细分模型覆盖全场景

2月14日,火山引擎正式发布「豆包大模型2.0」系列,包含Pro、Lite、Mini三款多模态通用模型及面向编程的Code模型(Doubao-Seed-2.0-Code),同步上线API服务,个人用户可通过火山方舟体验中心或豆包App「专家」模式体验,开发者可在TRAE中使用;该系列模型多模态理解能力全面升级,在空间、运动、视频等视觉理解测评中表现顶尖,推理、Agent能力及长程任务执行能力大幅强化,部分评测分数超越主流模型,且推理成本显著降低,Code模型适配真实编程环境,与TRAE配合可高效构建复杂应用,新用户首月最低8元即可畅享Coding Plan套餐。

阿里巴巴发布「Qwen3.5-397B-A17B」模型开放权重版本

2月16日,阿里巴巴发布原生多模态智能体「Qwen3.5」,并首推开放权重的「Qwen3.5-397B-A17B」模型,其采用线性注意力与稀疏混合专家混合架构,总参3970亿仅激活170亿参数,32K/256K上下文场景推理吞吐量分别为Qwen3-Max的8.6倍/19倍,多语言支持从119种扩展至201种;该模型在推理、编程、多模态理解等多项权威评测中表现优异,原生支持图像、视频输入(最长2小时),具备视觉编程、带图推理等能力,支持与第三方编程工具集成,未来将聚焦系统整合,打造可持续、可信任的通用数字智能体。

Anthropic推出史上最强Sonnet模型「Claude Sonnet 4.6」

2月18日,Anthropic推出史上最强Sonnet模型「Claude Sonnet 4.6」,在编程、计算机使用、长上下文推理、Agent规划、知识工作和设计工作上全面进化,其智能水平接近旗舰级Opus 4.6,在Agent金融分析、办公任务等测评中甚至超越Opus 4.6,成本却更亲民,还拥有100万token上下文窗口,处理复杂表格、填写网页表单等能力接近人类,模拟商业运营盈利能力突出,且价格与Sonnet 4.5一致,远低于Opus系列。

阿里开源千问「Qwen3.5」三款中等规模模型

2月25日,阿里开源千问「Qwen3.5」三款中等规模模型:Qwen3.5-35B-A3B、122B-A10B、27B。新模型采用混合注意力机制和高稀疏MoE架构,在指令遵循、博士级推理、Agent工具调用、Agentic Coding等多项权威榜单上刷新开源SOTA。35B-A3B性能超前代更大规模模型,122B-A10B进一步缩小与前沿模型差距,27B作为首个密集模型Agent和多模态能力强、可单GPU本地部署。其中Qwen3.5-Flash(35B-A3B生产版本)API在阿里云百炼上线,每百万token仅0.2元,默认支持1M超长上下文且内置工具,目前三款模型及35B-A3B-Base基座模型均已在魔搭社区、Hugging Face开源,也可在Qwen Chat免费体验。

马斯克通过推文非正式宣布「Grok 4.20 Beta」版更新上线

2月25日,马斯克通过推文非正式宣布「Grok 4.20 Beta」版更新上线,该版本采用快速学习机制可每周迭代,内置由协调者Grok、研究专家Harper、逻辑编程数学专家Benjamin、创意达人Lucas组成的4智能体团队(实测中部分显示为Agent代号),能通过内部讨论提升响应质量,使幻觉率降低约65%;其在第三方评测中表现亮眼,登顶Search Arena排行榜;Text Arena排名第4,Alpha Arena股票交易基准中夺冠,实测中在信息搜索汇总、动态SVG及游戏代码生成、风格化创作等任务上表现出色,且延续了毒舌幽默的风格。

「DeepSeek V4」被曝将在一周内上线,其Lite版本代号“sealion-lite”

2月26日,据多方消息称「DeepSeek V4」将在一周内上线,其Lite版本代号“sealion-lite”,具备100万token上下文窗口且为原生多模态模型,目前已在部分推理服务商处测试,性能表现优于前代网页版/应用模型;此次DeepSeek打破行业惯例,优先向国内芯片厂商开放V4早期接入权限而非美国厂商,引发关注,同时美国官方及Anthropic等公司对其发起舆论攻击,称其使用非法GPU训练、通过蒸馏Claude模型提升自身能力,而Anthropic旗下Claude Sonnet 4.6在特定条件下(清空系统提示、中文提问等)竟会自称是DeepSeek或ChatGPT,被网友质疑存在数据污染/身份对齐问题,相关争议也让Anthropic风评受损。

Goolgle发布全新生图模型「Nano Banana 2」

2月27日,Goolgle发布全新生图模型「Nano Banana 2」,基于Gemini 3.1 Flash Image,生成速度快、支持多语言文字处理与实时联网,可直出4K超清画质,解决了生图文字失真问题,在多项专业测评中斩获文生图全球第一,性能超越Nano Banana Pro且价格仅为Pro版的一半,还拥有接入知识库与实时联网的世界知识、精准的文本渲染与翻译等核心能力,主体一致性、视觉质量大幅提升,实测中展现出还原场景、生成多类创意内容的惊艳效果;目前已在落地Google全线产品,开发者也可通过AI Studio等平台获取预览版,Google为其设置了每日生成限额,将主打大众日常生图需求,Pro版则服务专业高要求场景。

Skywork AI正式发布多模态视频基础模型「SkyReels V4」

2月27日,Skywork AI正式发布多模态视频基础模型「SkyReels V4」,是全球首个同时支持多模态输入、联合音视频生成及统一生成/修复/编辑任务的视频模型,采用双流MMDiT架构、双维统一拼接框架及高效生成策略,可实现1080p/32FPS/15秒影院级音视频同步生成,在Artificial Analysis基准测试中位列Text to Video(With Audio)全球第二,人体评测中三项核心维度得分第一,已在广告营销、影视制作等多场景落地,标志着AI视频生成进入全流程一体化创作新阶段,后续将持续优化并开放API接口。

AI Agent

MiniMax宣布Agent Expert 2.0功能升级并上线「MaxClaw」

2月26日,MiniMax宣布Agent Expert 2.0功能升级并上线「MaxClaw」,Expert 2.0优化了专家Agent创建体验,用户仅用自然语言描述需求,Agent即可自动完成SOP梳理、工具编排等配置,平台已有1.6W+覆盖多领域的专家Agent被创建使用,每位用户有15轮免费创建调试额度,后续还将上线创作者定价分成和团队内共享机制。「MaxClaw」是基于OpenClaw构建的云端AI助手,集成在MiniMax Agent网页端,基础版订阅会员即可体验,无需本地部署和自备API Key,预置精选Skill且有50G专属云储存,还升级了OpenClaw原有工具并新增多款内置工具,打通飞书、钉钉等多IM渠道实现跨端协作,未来将支持自然语言自定义专家和推出移动端,目前Expert与MaxClaw均已在MiniMax Agent网页端开放使用。

Perplexity推出历时2个月研发的新产品「Perplexity Computer」

2月26日,Perplexity推出历时2个月研发的新产品「Perplexity Computer」,这是基于浏览器的全能型通用数字员工,可实现推理、编码、部署项目等全流程操作,还被复刻出平民版彭博终端机,年费仅为彭博终端机的1/12。该产品定位介于OpenClaw和Claude Cowork之间,是智能体AI系统,能自动拆解任务并由子智能体分工处理,可跨平台异步执行任务,核心调度Claude Opus 4.6等19个模型,能自动拆解任务、由子智能体分工跨平台异步执行,还可模拟真人操作电脑,且运行在浏览器沙盒中更安全可控,目前仅对Max订阅用户开放。

华为云正式发布「华为云码道」(CodeArts)代码智能体公测版

2月26日,华为云正式发布「华为云码道」(CodeArts)代码智能体公测版,该产品依托华为多年研发实践与千亿级代码库沉淀打造,集代码大模型、IDE、自主开发模式为一体,覆盖代码生成、研发知识问答等多类AI Coding技术于一体,接入GLM-5.0、DeepSeek-V3.2等多款主流模型并提供鸿蒙专属模型,在研发效率、代码质量、安全防护上均有针对性能力打造,还具备丰富的经验沉淀与灵活的能力扩展机制,目前已开放开发者免费体验,未来将持续迭代赋能研发新范式。

AI技术

智谱发布「GLM-5」技术报告,技术细节全公开

2月22日,智谱发布「GLM-5」技术报告,技术细节全公开。「GLM-5」是旨在推动编程范式从“氛围编程”转向“智能体工程”的下一代基础模型,采用DSA稀疏注意力机制、全新异步RL基础设施、全新异步Agent RL算法等四大技术创新,总参数量达7440亿、训练token规模28.5万亿,兼容七大主流国产芯片平台;该模型在主流开放基准测试中实现SOTA性能,在文本与代码竞技场位居开源模型第一,端到端软件工程等真实世界任务能力突出,长程任务处理与通用能力全面提升,通过匿名盲测获得社区广泛认可,目前代码、模型等相关信息已开源。

DeepSeek联合清华、北大发布顶会论文,提出双路径KV-Cache加载机制

2月27日,DeepSeek联合清华大学、北京大学发布顶会论文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》,提出双路径KV-Cache加载机制,通过新增“存储-解码引擎-预填充引擎”路径并搭配动态调度等设计,解决智能体长上下文多轮交互场景下的存储带宽瓶颈,该架构基于自研推理框架仅需5000行代码修改,在多类模型测试中性能最高提升187%,且与即将上线的DeepSeek V4 Lite(百万token上下文、原生多模态)形成技术呼应,同时有消息称DeepSeek为国内芯片厂商预留了V4的适配优化时间,其硬件协同策略出现调整。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×