近期AI领域密集发布新成果:OpenAI、火山引擎、阶跃星辰等推出多款大模型与实时语音模型,Luma、明略科技等分别在图像生成、端侧AI实现技术突破;快手、Anthropic、智诊科技等上线办公及行业智能体,千问、Claude升级办公协同能力;腾讯、美团、中国移动推出AI评测基准、内容社区与MoMA;同时OpenAI联合多家厂商发布AI训练网络协议,Google推出推理加速技术。市场层面,xAI并入SpaceXAI并出租巨量GPU算力,IDC研判国内企业级MaaS进入规模化增长期,AI基础设施企业完成大额融资,职场AI应用也转向严控Token消耗、重视ROI精细化管控,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
OpenAI正式发布「GPT-5.5 Instant」,成为ChatGPT默认模型
5月6日,OpenAI正式发布「GPT-5.5 Instant」,取代「GPT-5.3 Instant」成为ChatGPT默认模型,面向所有用户开放;新版本在保持低延迟的同时,准确性、简洁度、个性化显著提升,医疗、法律、金融领域幻觉率下降52.5%,理科与多模态能力大幅增强,回复更精简自然,Plus/Pro用户可调用历史对话、文件、Gmail实现个性化回答,同步上线记忆来源功能;该模型已通过API开放,「GPT-5.3 Instant」将保留三个月后下线。
Luma推出升级后的统一图像模型「Uni-1.1」并开放API
5月6日,Luma推出升级后的统一图像模型「Uni-1.1」并开放API,模型采用理解与生成一体化的decoder-only自回归Transformer架构,在第三方盲测平台Arena图像生成榜单跻身全球前三,文字渲染能力接近GPT-Image 2;其API单图最低0.0404美元,价格与延迟仅为同类模型一半,已获阿迪达斯、马自达等企业接入使用,可高效完成复杂版面、多对象一致性、多参考图融合与多轮精准编辑等生产级任务,大幅降低内容制作成本与周期;该模型由不到15人的华人领衔核心团队研发,后续将从静态图像拓展至视频、语音等领域,以轻量化路线打破图像生成赛道由算力与规模主导的格局。
明略科技开源「Cider」端侧推理加速框架与「Mano-P」端侧GUI智能体模型
5月6日,明略科技正式开源自研的「Cider」端侧推理加速框架与「Mano-P」端侧GUI智能体模型,进一步完善端侧AI技术布局。其中,「Mano-P」为4B参数的端侧GUI-VLA模型,可纯视觉操作图形界面,离线运行、数据本地留存,隐私安全且零调用成本,准确率媲美云端大模型;「Cider」是面向Apple Silicon与macOS的推理加速SDK,基于MLX生态构建,支持W8A8/W4A8量化,算子速度与预填充效率显著提升,内存占用更低,并实现ANE+GPU异构协同,兼容主流大模型且接入简便,助力企业实现数据不出设备的私有化AI部署。后续明略科技还将开源Mano-Action训练方法与工具,持续赋能端侧智能体定制化与创新落地。
Subquadratic推出全球首个基SSA亚二次方稀疏注意力架构的大模型「SubQ」
5月6日,仅13人的美国初创公司Subquadratic推出全球首个基SSA亚二次方稀疏注意力架构的大模型「SubQ」,上下文窗口达1200万Token。该架构通过动态聚焦关键信息、摒弃全量注意力计算,实现算力暴减近千倍,100万Token场景速度比FlashAttention快52倍、成本仅Claude Opus的5%,多项基准测试打平甚至超越主流旗舰模型,被业内视为可能颠覆Transformer九年统治地位的重大突破,同时引发技术真实性与是否为“AI版Theranos”的激烈争议。
火山引擎发布豆包首款全模态模型「Doubao-Seed-2.0-lite」,mini版同步上线
5月6日,火山引擎推出豆包大模型家族首款全模态理解模型「Doubao-Seed-2.0-lite」,同步上线「Doubao-Seed-2.0-mini」新版,均支持视频、图像、音频、文本原生统一理解,已在火山方舟上线;该模型视觉理解在高阶学科推理、细粒度感知等领域达SOTA水平,音频支持19语种转写与多语种互译,多项音频理解基准优于Gemini-3.1-Pro,可完成音画结合的复杂跨模态推理,同时Agent、Coding、GUI能力同步升级,长任务更稳定、能胜任前后端深度开发,实现界面理解与操作执行一体化,可在电竞、在线教育、海外电商等场景落地,且同等算力下性价比更高,mini版还大幅缩短思考长度、提升Tokens效率。
Genesis AI发布机器人基础模型「GENE-26.5」,灵巧操控实现多项高难度日常任务
5月7日,获1.05亿美元种子轮的Genesis AI发布机器人基础模型「GENE-26.5」,凭借自研全栈技术(1:1人手尺寸灵巧手、低延迟实时控制栈、低成本数据采集手套、20万小时多模态数据、统一多模态模型与高保真物理引擎仿真),实现单手打蛋、切番茄、拧试管盖、解魔方、弹钢琴、线束整理等复杂任务,多数技能仅需不到1小时真实数据即可完成,烹饪步骤成功率达90%-95%,操作速度为人类六七成,获业内高度关注;团队由CMU团队组建,全球三地布局,下一步将推出全身通用机器人。
OpenAI推出「GPT-Realtime」系列实时语音模型
5月8日,OpenAI推出「GPT-Realtime」系列实时语音模型,核心的「GPT-Realtime-2」搭载GPT-5级别推理能力,支持并行工具调用、自然等待话术与多档推理强度,复杂任务处理能力大幅提升;「GPT-Realtime-Translate」支持70余种输入语言、13种输出语言的近乎同步实时翻译,「GPT-Realtime-Whisper」可低延迟实时语音转文字,三者均已开放API并公布对应定价,整体让AI语音交互更自然、高效,推动语音成为更便捷的数字世界交互入口。
阶跃星辰正式发布新一代实时语音大模型「StepAudio 2.5 Realtime」
5月8日,阶跃星辰正式发布并全量上线新一代实时语音大模型「StepAudio 2.5 Realtime」,该模型聚焦三大核心能力突破,具备顶级副语言能力可精准捕捉情绪与弦外之音,实现对话智商与情商双重跃升,还支持千万人设自定义,依托百万级人设特征矩阵与RLHF优化,能稳定演绎角色,同时提供5个预设人设,可打造有温度、有灵魂、有态度的真人级实时语音对话体验。
AI Agent
快手正式上线桌面端通用AI智能体「KroWork」
4月30日,快手正式上线桌面端通用AI智能体「KroWork」,面向非程序员知识工作者,用户用自然语言下达指令,即可自主规划步骤并在安全沙箱执行,既能完成写报告、做分析等常规办公任务,还能将重复工作流一键生成本地桌面应用,实现零Token消耗、数据本地留存、输出稳定,同时具备沙箱隔离、权限可控、步骤可查的安全特性,且集成国内外主流AI大模型,能力全面。
Anthropic为Claude Managed Agents上线「Dreaming」等三大新功能
5月7日,Anthropic为Claude Managed Agents上线三大新功能:需申请使用的「Dreaming」(做梦)可在任务间隙整理记忆、合并重复与更新过时信息,让Agent持续进化;「成果评估」(Outcomes)支持自定义评分标准自动质检并迭代优化,任务成功率显著提升;「多Agent协作」由主Agent拆分任务给专属Agent并行处理,上下文隔离且共享文件系统,仅支持一层委托避免失控。这些功能已在法律、影音平台、写作、医疗文档质检等场景落地测试,效率与完成率提升明显,其中「Dreaming」为研究预览版,其余功能处于公开测试阶段。
智诊科技发布面向医疗健康行业的「WiseClaw 2.0」医疗Agent OS平台
5月7日,智诊科技发布面向医疗健康行业的「WiseClaw 2.0」医疗Agent OS平台,采用OpenClaw与Harness双引擎协同架构,以“可靠、可控、可运营”为核心理念,满足医疗AI长时程、可追溯、可执行、可治理的落地诉求,具备健康档案驱动、多智能体协作、心跳引擎、全链路可观测四大关键设计,已在名医AI分身、体检服务链、健康硬件、慢病营养、保险与养老五大高频场景落地验证,标志着中国医疗AI从“会答题”迈向“可交付”。
千问正式上线PC端「AI语音输入」功能
5月7日,千问正式上线PC端「AI语音输入」功能,Windows长按右Alt、Mac长按右Command即可一键唤醒,可在千问客户端、各类应用及网页中全局调用,且免费向所有用户开放。该功能支持长按语音转录,能自动修正口误、去除冗余表达、逻辑纠错并结构化整理内容;双击快捷键还可唤醒AI助手,完成创作、编辑、搜索、英文邮件生成、数据插入、文本解释与翻译等操作,大幅提升办公与输入效率。
Claude宣布正式接入Microsoft 365的Excel、PowerPoint、Word
5月8日,Claude宣布正式打通Microsoft 365的Excel、PowerPoint、Word,并在Outlook中开放公测版,其核心亮点是跨应用全程保留完整上下文,无需反复交代背景,可在邮箱、文档、表格、演示文稿间顺滑流转工作流,能按企业模板与格式规范生成、修改内容,修改以修订、高亮、存草稿等安全方式呈现,不破坏原有格式与公式,付费订阅Claude即可使用正式版功能,大幅提升办公效率。
AI 工具
腾讯混元联合复旦大学推出「CL-Bench Life」评测基准
5月1日,腾讯混元联合复旦大学推出「CL-Bench Life」评测基准,聚焦衡量大模型在现实生活场景中的上下文学习能力,该基准含405个人工构建真实任务,覆盖沟通社交、碎片信息与修改轨迹、行为记录与活动轨迹三大类别,搭配5348条人工评分细则;对12个主流模型测试发现,模型平均仅能解决14.5%的任务,最优模型也仅22.2%,远低于专业场景的CL-Bench表现,核心瓶颈是处理杂乱、碎片化、高噪声日常上下文的能力不足,主要错误为上下文误用,且该基准并非CL-Bench的难度升级版,而是互补评测工具,旨在推动AI更好适配真实生活场景,迈向实用的个人助手。
美团公测AI原生内容共生社区「觅游」
5月7日,美团公测AI原生内容共生社区「觅游」,定位为Skill Hub与社交社区结合体,含今日虾条内容广场、技能便利店、龙虾成长日记三大核心模块,为AI Agent打造含MBTI、能力雷达、成长档案的完整身份与成长体系,已入驻超3000个Agent、内置超4万个Skill插件、社区内容超1万条,用户可通过指令让Agent接入,完成互动可获积分,其创新点在于构建人机信任资产、实现AI长期陪伴,是美团继xia345后在龙虾生态的又一关键布局,旨在让AI从工具变为懂用户的伙伴。
Redis之父发布专为DeepSeek V4 Flash打造的专用推理引擎「DS4」
5月8日消息,Redis之父Salvatore Sanfilippo(antirez)发布专为DeepSeek V4 Flash打造的专用推理引擎「DS4」,该引擎基于C语言与苹果Metal API开发,仅适配Apple Silicon设备,通过非对称量化、硬盘KV缓存、兼容OpenAI与Anthropic API等优化,让284B参数的V4 Flash在高端Mac上实现高效本地推理,引发开发者对“一模型一专用引擎”本地推理新方向的热议,项目还坦言借助GPT 5.5辅助开发。
中国移动推出国内首个开放普惠大模型聚合平台「MoMA」
5月9日,2026移动云大会在苏州举办,吸引超10万人次观展。会上中国移动启动“算力新动能行动计划”,发布AIDC跃升、算力互联成果,构建全国算力一张网;推出国内首个开放普惠大模型聚合平台「MoMA」,整合超300款主流模型;发布央企首个自研桌面级AI办公智能体框架「MobileClaw」,内置150余个行业技能。同时全面升级“AI+”行动,深化算网融合与生态合作,推动AI赋能千行百业。
技术突破
OpenAI联合推出面向超大规模AI训练的开源网络协议「MRC」
5月7日,OpenAI联合NVIDIA、AMD、英特尔、微软、博通等厂商,经两年研发推出面向超大规模AI训练的开源网络协议「MRC」(多路径可靠连接),并通过OCP开放,该协议已应用于OpenAI大型NVIDIA GB200超算;「MRC」从多平面网络拓扑、自适应包喷射、SRv6静态源路由三方面优化,实现微秒级故障恢复,可支撑10万块以上GPU高效协作,降低网络拥塞、丢包与训练延迟,大幅提升大规模AI训练集群的运行速度与稳定性,减少GPU资源浪费。
Google推出「MTP」推测解码技术,推理速度提升3倍
5月6日,Google为Gemma 4大模型推出「MTP」(Multi-Token Prediction)推测解码技术,在不改模型、不降质量的前提下,实现推理速度最高提升3倍,覆盖手机、PC、服务器等多类硬件;该技术通过轻量草稿模型提前预测多Token、再由大模型并行验证,解决LLM推理内存带宽瓶颈,降低延迟并提升本地与边缘运行效率;相关能力已开源,兼容主流推理框架,可在多平台下载使用。
市场动态
马斯克官宣解散xAI并入SpaceXAI,将22万张GPU算力租给Anthropic
5月7日,马斯克官宣解散xAI并将其并入SpaceXAI,同时SpaceX与Anthropic联合宣布,把搭载22万块GPU、算力达300+兆瓦的全球最强超算Colossus 1全部租给Claude,助力其快速提升服务能力;xAI因模型竞争乏力、亏损严重,马斯克转而效仿Google采用算力对冲策略,既缓解亏损、扶持OpenAI的竞争对手,又在同期起诉OpenAI并要求罢免奥特曼等董事,从法律与商业层面双重围猎对手,此举也标志着AI行业竞争焦点从模型转向算力基础设施,行业格局迎来重大调整。
IDC深度解析,中国MaaS市场从试点到规模化,多模态与Agent驱动高增长
5月7日,国际数据公司IDC公布了2025年中国企业级MaaS市场报告,中国市场经历了从试点转向规模化应用,Token调用量同比增约16倍、公有云营收达30.7亿元,私有化部署在政务、金融等领域活跃;IDC预计2026年Token消耗量将达40000万亿次、营收约186亿元,驱动因素为多模态大模型成熟与Agent应用落地,不同场景Token消耗差异显著;市场格局上公有云头部集中、私有化部署更分散,企业落地优先关注性能、合规与回答质量,成本暂居次位;行业竞争从单纯价格比拼转向价格、性能、工具链支持的综合竞争,厂商需聚焦优化与垂直场景深耕,企业应重视质量合规并建立成本评估机制,高增长依赖多模态、Agent、算力与合规等前提条件。
AI基础设施初创公司RadixArk完成1亿美元种子轮融资
5月8日消息,AI基础设施初创公司RadixArk完成1亿美元种子轮融资,投后估值4亿美元,由Accel与Spark Capital领投,NVIDIA、AMD、联发科、Databricks等机构及Intel、OpenAI、PyTorch等领域技术领袖参投,为2026年AI Infra赛道重磅早期融资;该公司由SGLang开源项目核心团队创立,CEO盛颖、CTO朱邦华背景顶尖,SGLang已是开源大模型推理事实标准,GitHub星标超2.7万、部署于超40万GPU,团队还推出强化学习框架Miles,可实现新模型发布当日同步支持推理与训练,打通训练-RL-推理全链路效率;本轮融资获硬件、模型、系统层巨头集体背书。
5月职场AI风向生变:从All in转向严控Token消耗,迈入ROI精打细算时代
2026年5月职场AI使用风向突变,上月企业与员工还普遍All in AI、随意调用大模型提升工作效率,几乎不关注成本;本月企业纷纷开始管控Token消耗,关停免费API、按部门分配额度、上线成本看板、要求评估AI使用ROI,AI使用从“免费体验”转向“精打细算”,核心原因是企业级落地后Token消耗量大、成本攀升,AI应用正式从体验期进入重成本与回报的ROI清醒期,职场人也开始根据任务类型合理规划AI使用、控制调用成本。