MIAOYUN | 每周AI新鲜事儿 260424

本周国内外密集发布全新大模型、AI智能体、工具及底层技术:国际OpenAI、Anthropic,国内Kimi、阿里、千问、小米、字节、腾讯、DeepSeek等持续上新并开源多模态、代码、端侧、3D生成类大模型,性能对标国际顶尖水平。AI Agent持续升级,新增自进化、屏幕记忆、企业级研究与自动化工作区能力;AI设计、Agent优化等工具落地,降低创作开发门槛;同时新型推理架构、端侧基座模型、具身智能开源平台与AI硬件基础设施同步推进,加速AI产业化落地,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

Anthropic推出「Claude Opus 4.7」模型

4月17日,Anthropic推出「Claude Opus 4.7」模型,在复杂软件工程、多模态视觉、多学科推理等多项基准测试中优于Opus 4.6,部分指标超越GPT-5.4、Gemini 3.1 Pro,仅弱于Claude Mythos Preview,其支持更高分辨率图像处理、新增自动模式、专注模式等功能,知识截止至2026年1月,定价与Opus 4.6一致,但思考令牌消耗增加、速率限制上调,同时搭载了新的网络安全防护措施,已在多平台上线。

OpenAI发布首个生命科学专用模型「GPT-Rosalind」

4月17日,OpenAI发布首个生命科学专用模型「GPT-Rosalind」,以研究预览形式开放,仅面向美国合规企业客户并需通过可信访问流程,同步上线免费的生命科学研究插件,可对接50余个科学工具与数据库,普通用户也能使用。该模型聚焦生物推理、科研工作流、数据库调用与实验设计,在多项基准测试中表现领先,部分任务超越GPT-5.4,在基因序列相关任务上甚至超过人类专家水平,已获安进、Moderna、NVIDIA等多家机构合作应用;模型采用严格安全管控,不替代科研人员,仅用于加速研发环节,现阶段试用不消耗额度,后续将公布定价并扩大开放范围。

月之暗面发布并开源「Kimi K2.6」模型,代码能力全面提升

4月20日,月之暗面发布并开源「Kimi K2.6」模型,带来行业领先(state-of-the-art)的代码、长程任务执行和Agent集群能力。该模型在通用Agent、代码、视觉理解等能力全面提升,在多项权威基准测试中持平或优于GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro等闭源模型,长程编码能力大幅突破,可连续编码13小时、修改超4000行代码,Agent集群升级至支持300个子Agent并行完成4000个协作步骤,自主Agent可连续5天稳定运行,还强化了代码驱动设计、Office办公与技能创建等能力,推出Claw群组内测功能。

阿里发布语音识别大模型「Fun-ASR 1.5」,可识别30种语言

4月20日,阿里发布语音识别大模型「Fun-ASR 1.5」,单模型可精准识别30种主流语言,支持无预设跨语言混读;覆盖中文七大方言体系与二十余种口音,字错误率较上版下降56.2%,重点优化15种方言识别;专项升级古诗词识别,准确率达97%;同时优化智能标点与文本归一化,转写更规范,可在阿里云百炼、魔搭社区体验使用。

千问推出下一代旗舰大模型预览版「Qwen3.6-Max-Preview」

4月20日,千问推出下一代旗舰大模型预览版「Qwen3.6-Max-Preview」,相较Qwen3.6-Plus,在智能体编程、真实场景智能体编程表现、世界知识、指令遵循等方面显著提升,登顶Artificial Analysis榜单最佳国产模型,超越GLM5.1、MiniMax-M2.7等模型,可在Qwen Studio体验,即将通过阿里云百炼API开放调用,模型仍在迭代优化中。

OpenAI发布「ChatGPT Images 2.0」,新增视觉思考能力

4月22日,OpenAI正式发布图像生成与编辑模型「ChatGPT Images 2.0」,新增视觉思考能力,支持联网、多图生成与自我复核,在指令遵循、精细文本渲染、多语言(含中文)、风格还原与宽高比适配大幅提升,最高支持2K分辨率,知识更新至2025年12月,可直接产出可用设计,已面向ChatGPT、Codex及API开放,高级思考功能向Plus/Pro/Business用户提供,实测综合能力显著优于Google Nano Banana 2,同时官方也说明其在复杂物理建模、极高密度细节上仍有局限。

商汤绝影智能发布端侧多模态智能体基座大模型「Sage」

4月22日,商汤绝影智能发布端侧多模态智能体基座大模型「Sage」,采用MoE架构,总参数量32B、激活参数仅3B,是行业首款在车端实现复杂智能体能力的基座大模型,已在英伟达Orin X端侧平台部署;其凭借自研SCOUT分级协同学习与ERL可擦除强化学习两大核心技术,在PinchBench评测中以94%的任务完成率超越Claude、GPT-5.4、Gemini等国际主流云端大模型,同时在MMLU Pro、GPQA Diamond等多项专业基准测试中领先同量级端侧模型,具备低延迟、高执行成功率等优势,可覆盖出行、家庭全场景,将搭载于Sage Box在北京车展推出,推动智能座舱向高阶舱驾融合智能体服务跨越。

千问开源「Qwen3.6-27B」稠密多模态大模型

4月22日,千问开源「Qwen3.6-27B」稠密多模态大模型,该模型为270亿参数规格,凭借旗舰级智能体编程能力,在多项核心编程基准上全面超越前代3970亿参数的MoE开源旗舰Qwen3.5-397B-A17B,同时具备强大文本与多模态推理、视觉理解能力,更低显存占用且无需MoE路由即可部署,现已在Qwen Studio上线,模型权重可于Hugging Face、ModelScope下载,阿里云百炼平台也即将开放API调用,标志着Qwen3.6系列完整发布。

小米「Xiaomi MiMo-V2.5」系列大模型正式开启公测

4月23日,小米「Xiaomi MiMo-V2.5」系列大模型正式开启公测,该系列包含MiMo-V2.5、V2.5-Pro、V2.5-TTS Series、V2.5-ASR,在推理、智能体、上下文长度、指令理解、全模态感知等方面全面升级,实现从“能用”到“好用”的跨越;其中MiMo-V2.5-Pro通用智能体、复杂软件工程、长程任务能力可对标全球顶尖模型,能高效完成编译器开发、视频编辑器搭建等高难度长程任务,MiMo-V2.5则为越级全模态Agent模型且成本更低、Token效率更高;同时官方优化了Token定价方案,推出夜间折扣、自动续费与包年优惠,还为老用户重置Credits额度,且该系列模型即将全球开源。

字节跳动发布「Seed3D 2.0 3D」生成大模型

4月23日,字节跳动正式发布「Seed3D 2.0 3D」生成大模型,围绕几何精度与材质质量完成架构升级,几何生成采用两阶段DiT与Coarse-to-Fine策略,优化锐利边缘、精细结构等难点,VAE同步升级提升重建精度与效率;纹理生成改用统一PBR模型,结合MoE架构与VLM先验,实现高分辨率、物理一致的真实材质生成,两项核心指标均达SOTA水平;同时拓展下游可用性,支持部件级生成、关节化建模与多物体场景组合,可兼容主流物理仿真引擎,技术报告已公开,API上线火山引擎,推动3D生成迈向生产可用。

腾讯混元发布并开源「Hy3 preview」大模型

4月23日,腾讯混元发布并开源「Hy3 preview」大模型,是总参数295B、激活参数21B的快慢思考融合混合专家模型,支持256K上下文,遵循能力体系化、评测真实性、性价比三大原则,在复杂推理、上下文学习、指令遵循、代码与智能体等能力大幅提升,理工科推理、代码智能体、搜索智能体等多项评测表现突出,推理效率与成本显著优化,已在元宝、QQ、腾讯文档等多款腾讯产品上线并支持主流开源智能体,模型权重与代码在多平台开源,腾讯云同步推出有竞争力的API定价与Token套餐。

可灵AI升级,视频3.0系列模型新增「原生4K直出」功能

4月23日,可灵AI平台迎来升级,视频3.0系列模型新增「原生4K直出」功能,无需超分即可实现院线级清晰度、细腻色彩与真实质感,每秒消耗30灵感值,即日起至6月30日不同等级会员享4K生成折扣;同时团队会员跨空间管理升级,支持灵感值与资产转移、精细权限管控,桌面端(Win/Mac)上线,团队会员年卡限时5.5折、首购最高赠10000灵感值,此外可灵AI 4K影像创作大赛启动。

OpenAI正式发布最新一代大模型「GPT-5.5」

4月24日,OpenAI正式发布最新一代大模型「GPT-5.5」,在推理、代码、知识整合、工具调用与长任务处理能力显著提升,多数评测基准领先Claude Opus 4.7等竞品,完成同等任务Token消耗更低,已在ChatGPT与Codex上线并开放API,标准版API输入5美元/百万Token、输出30美元/百万Token,Pro版价格翻倍,支持最高100万Token上下文窗口且长文本精度衰减控制优异,可高效完成编程、知识工作、科研等任务,还具备计算机GUI接管能力,部署于英伟达高端服务器并优化推理速度,同时加强生物、化学、网络安全等方向的安全管控与专项访问机制。

「DeepSeek-V4」预览版上线并开源,推出Pro与Flash版本

4月24日,「DeepSeek-V4」预览版正式上线并开源,推出Pro与Flash两个版本,均支持百万字超长上下文,凭借创新稀疏注意力机制实现高效长上下文处理,Agent、知识与推理能力达国内及开源领域领先水平,Pro版性能比肩顶级闭源模型,Flash版更快捷经济,二者同步开放官网、App与API服务,API支持指定模型名调用并标注了计费标准,旧接口将于三个月后停用,同时模型权重与技术报告已公开。

AI Agent

智谱AutoClaw(澳龙)上线「自进化机制」和「Skill商店」

4月17日,智谱旗下AutoClaw(澳龙)上线「自进化机制」和「Skill商店」:Agent可通过用户指令或失败经验自动提炼并固化能力,经用户审批后永久记忆偏好与策略,实现“越用越懂你”;同时上架GLM Office Skills五件套,依托GLM-5.1支持PPT、DOCX、XLSX、PDF、图表生成与互转,自带智能自检与专业排版,可一键产出完整办公材料;Skill商店还引入专家共创技能,覆盖人物建模、深度调研、网页幻灯片等场景,降低使用门槛,让普通用户无需钻研技术即可用上先进Agent能力,产品已在多平台开放体验。

灵光APP推出AI应用分发社区「灵光圈」,打造Wish Coding新范式

4月20日,灵光APP推出AI应用分发社区「灵光圈」,它是升级版灵光闪应用,主打0代码、0部署、一句话生成完整应用,深度集成手机原生能力,为每位用户配备专属Coding Agent,让普通人无需编程即可快速创作、分享AI小应用,构建“人提出创意-AI实现-创意流动”的创造回路,倡导Wish Coding创作新方式。

OpenAI为Codex上线新功能「Chronicle」,新增屏幕上下文记忆

4月21日,OpenAI为Codex上线新功能「Chronicle」,在原有对话记忆基础上新增屏幕上下文记忆,可直接读取屏幕内容辅助工作,无需用户重复说明上下文;该功能目前仅面向macOS平台ChatGPT Pro用户开放(欧盟、英国、瑞士暂不支持),为可选体验版。它能实现直接看屏幕Debug、自动补全指代不明的指令、记住用户常用工具与流程三大核心场景,使用需授予屏幕录制与辅助功能权限,截图会本地暂存并6小时后自动删除,相关数据仅用于处理且不用于模型训练。

Google推出「Deep Research」与「Deep Research Max」自主研究智能体

4月22日,Google深夜推出基于Gemini 3.1 Pro的「Deep Research」与「Deep Research Max」两款自主研究智能体,前者侧重速度与低成本,后者主打深度推理并在基准测试中表现优异,更新后支持MCP协议可连接第三方与企业私有数据、原生生成图表信息图,仅通过Gemini API开放付费预览,普通App用户无法使用,此举意在强化企业级AI研究工具竞争力,对标OpenAI、Anthropic等对手,同时该工具已从C端助手演进为企业级AI基础设施。

OpenAI在ChatGPT中推出工作区智能体「Workspace Agents」

4月23日,OpenAI在ChatGPT中正式推出由Codex驱动的工作区智能体「Workspace Agents」,作为GPTs的全面升级版,拥有独立云端沙盒、持续记忆与自主执行能力,可7×24小时后台运行、跨多工具完成复杂任务,还能通过使用不断优化,支持自然语言零代码搭建、团队共享,且提供销售线索跟进、产品反馈路由、软件审查、周报生成、第三方风险管理五类预设智能体,仅面向ChatGPT特定付费计划开放,同时具备完善权限管控与安全机制.

AI 工具

Anthropic推出「Claude Design」研究预览版,一句话生成UI

4月18日,Anthropic推出由Claude Opus 4.7驱动的「Claude Design」研究预览版,支持自然语言对话生成UI原型、演示文稿、营销素材等,可通过评论、参数滑块精细调整,自动继承团队设计系统并支持协作交付,能衔接Claude Code;该工具降低设计门槛、重塑设计交互范式,发布后导致Figma股价下跌约4.6%,引发市场对AI冲击传统设计工具的讨论。

「AgentScope Tuner」重磅升级,一键搞定AI Agent全流程优化

4月21日,专为Agentic AI打造的一站式自动优化引擎「AgentScope Tuner」正式升级,无需重构代码、零改造成本,提供Prompt调优、模型选择、强化微调(RFT)三大核心能力,覆盖从轻量优化到深度训练的全周期需求,统一接口与评测口径,支持低学习成本、低硬件门槛与规模化训练;经Math Agent、狼人杀多智能体博弈、DeepFinance金融研究Agent等实战验证,可显著提升准确率、降低Token消耗、强化复杂任务与博弈策略能力,让小模型比肩闭源商业模型,助力Agent实现开发-调优-部署-回归一键闭环,持续进化。

技术突破

Kimi联合清华大学发布全新大模型推理架构「PrFaaS」(预填充即服务)

4月19日,月之暗面(Kimi)联合清华大学发布全新大模型推理架构「PrFaaS」(预填充即服务),核心突破是让KV Cache可跨数据中心传输,将Prefill与Decode解耦到异构集群,打破传统架构对RDMA网络的依赖。该架构依托线性注意力+全注意力混合模型,把KV吞吐量降至以太网可承载水平,长上下文场景优势显著;采用“专用集群做Prefill、本地集群做Decode”的分层调度,搭配混合前缀缓存池与双时间尺度调度算法,实测吞吐量较传统同构集群提升54%、P90延迟降低64%,跨机房传输仅需13Gbps带宽,普通以太网即可稳定支撑,大幅提升算力利用率并降低部署成本,相关成果已形成论文公开。

市场动态

智平方联合港科大推出一站式具身模型开源社区「AlphaBrain Platform」

4月22日,国内具身智能创业公司智平方联合港科大(广州)熊辉团队推出全球首个一站式具身模型开源社区「AlphaBrain Platform」,这套全链路工具链涵盖数据、训练、架构、测试环节,集成原生世界模型、类脑VLA(NeuroVLA)、跨架构持续学习、RL Token训练范式、统一基准测试套件五大核心技术,可低成本实现模型适配与场景落地,降低具身智能开发门槛;智平方坚持端到端大模型技术路线,自研具身大模型性能领先,旗下AlphaBot 2机器人实现量产交付,已在多领域落地并获大额订单,此次开源打破顶尖实验室技术壁垒,推动具身智能行业快速发展。

Google推出「代理式企业」技术栈,发布第八代「TPU」

4月23日,Google推出「代理式企业」技术栈,发布第八代「TPU」(分训练用TPU 8t、推理用TPU 8i,算力、内存、性价比显著提升)、Gemini Enterprise智能体平台、知识目录、跨云湖仓等AI工具,升级Workspace智能办公与反诈防御平台,同时宣布2026年AI相关资本开支达1750亿-1850亿美元,Google75%新增代码已由AI生成。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×