MIAOYUN | 每周AI新鲜事儿 250815

本周AI领域亮点纷呈,阿里、百川、智谱、昆仑万维(连发5弹)等密集开源发布新模型,推动多模态、视觉、具身智能与视频生成边界;AI工具层,百度搜索AI月活破3亿、商汤Seko一句话生成视频、DeepSeek新增分享图功能提升体验;GitHub不再独立运营并入微软AI部门、Grok 4免费开放等事件引市场关注,一起来回顾本周不容错过的AI新鲜事儿吧!

AI 大模型

阿里达摩院开源VLA模型、世界理解模型及机器人上下文协议

8月11日,在世界机器人大会上,阿里达摩院宣布开源自研的VLA模型「RynnVLA-001-7B」、世界理解模型「RynnEC」、以及首个机器人上下文协议「RynnRCP」,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。「RynnRCP」包括RCP框架和RobotMotion两个主要模块,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,帮助用户根据自身场景轻松适配。「RynnVLA-001」基于视频生成和人体轨迹预训练,能从第一人称视角视频学习人类操作技能,「RynnEC」则将多模态大语言模型引入具身世界,仅靠视频序列建立连续空间感知。

百川智能发布并开源医疗增强大模型「Baichuan-M2」

8月11日,百川智能发布并开源医疗增强大模型「Baichuan-M2」,以32B参数在权威评测HealthBench中超越OpenAI等主流模型,模型通过“AI患者模拟器”生成动态医患对话数据,结合多阶段强化学习(RL)和大型验证系统,提升复杂医疗场景的推理能力,同时保持数学、写作等通用性能;并针对中国临床场景优化,实现高效部署。

阿里云通义实验室发布新一代图生视频模型「Wan2.2-I2V-Flash」

8月11日,阿里云通义实验室正式上线新一代图生视频模型「Wan2.2-I2V-Flash」,该模型不仅可稳定生成电影级视频,生成速度还比「Wan2.1」模型服务提升12倍,抽卡成功率相较「Wan2.1」提升了123%。且API价格低至0.1元/秒,每条视频仅需0.5元。

智谱AI推出全球100B级效果最佳的开源视觉推理模型「GLM-4.5V」

8月11日,智谱AI正式推出并开源全球100B级效果最佳的开源视觉推理模型「GLM-4.5V」(总参数106B,激活参数12B)。作为多模态通用人工智能(AGI)的核心突破,该模型在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能,覆盖图像、视频、文档解析及GUI Agent等全场景任务。

星海图开源全球首个开放场景高质量真机数据集及G0双系统VLA 模型

8月11日,星海图正式发布并开源全球首个开放场景高质量真机数据集「Galaxea Open-World Dataset」,及「星海图G0」双系统全身智能VLA模型。这一数据集包含500小时真实世界移动操作数据,覆盖50种环境、150类任务和1600多种操作对象,58种操作技能,确保数据一致性和高精度标注。G0模型采用“双系统”架构,结合了慢速的规划系统和快速的执行系统,创新性地解决了机器人学习中的控制精度问题。

腾讯混元发布52B参数多模态理解模型「Large-Vision」

8月12日,腾讯混元发布多模态理解模型「Large-Vision」,采用MoE架构,激活参数52B规模,兼具性能和效率,同时支持任意分辨率图像、视频、3D空间输入,无需复杂预处理,重点提升了多语言场景理解能力,可应用于智能监控、视频分析、虚拟现实等领域。

OpenAI「ChatGPT 5」更新增加三种模式,「GPT-4o」回归

8月13日消息,本周ChatGPT频繁更新带来了多项变化。首先,「GPT-4.5」版本现仅向PRO用户开放,而PLUS用户的性价比仍然很高。此外,移动端与网页端均已上线,提供了更方便的使用体验;模型池回归并且用户可选择不同模型,包括GPT-4o、o3、4.1和GPT-5 Thinking mini。新增的使用模式包括Auto(自动平衡速度与深度)、Fast(优先响应速度)和Thinking(深度思考模式)三种,其中Thinking模式支持196k上下文窗口,每周限制约3000条消息,超出后会自动降为Thinking mini版。

昆仑万维SkyWork AI技术发布周启动,连发5款新模型

8月11日至15日,昆仑万维SkyWork AI技术发布周启动,每天发布一款新模型,覆盖多模态AI核心场景的前沿模型,包括「SkyReels-A3」、「Matrix-3D」、「Matrix-Game 2.0」、「Skywork UniPic 2.0」、「Skywork Deep Research Agent v2」、「Mureka V7.5」模型。

8月11日,昆仑万维发布数字人生成模型「SkyReels-A3」,基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,能实现任意时长的全模态音频驱动数字人创作。

8月12日,昆仑万维开源了Matrix世界模型系列中的重要组成模型「Matrix-3D」;同时发布了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本「Matrix-Game 2.0」,这是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

8月13日,昆仑万维开源「Skywork UniPic 2.0」模型,面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

8月14日,昆仑万维发布「Skywork Deep Research Agent v2」,引入多模态深度调研能力,首次整合多模态检索、理解和生成,克服传统纯文本检索方案丢失图像信息的缺陷,是天工超级智能体(Skywork Super Agents)的核心引擎。

8月15日,昆仑万维上线「Mureka V7.5」模型,实现了中文歌曲音色、演奏技法的大幅提升,还完成了中文歌曲咬字与情感表现提升。同时,昆仑万维语音团队还推出了首个基于MOE的角色描述语音合成框架「MoE-TTS」,结合预训练大语言模型(LLM)文本能力与语音专家模块(Speech Expert Modules),实现“知识零损失”的泛化理解能力。

AI 工具

Cursor发布全新工具「Cursor CLI」,并提供「GPT-5」限时免费权限

8月8日,AI编程工具Cursor宣布为付费用户提供「GPT-5」限时免费使用权限,并同步上线全新CLI(命令行界面)工具「Cursor CLI」。「GPT-5」在编码、软件工程和复杂任务处理上表现出色,甚至超越了Claude Sonnet4。而CLI工具的推出,让开发者可以直接在终端调用AI生成代码、调试错误,无需切换界面,效率大幅提升。

百度搜索PC端全面上线AI功能,月活破3.22亿

8月11日,百度宣布其搜索PC端首页全面上线AI功能,推出“超级智能双行框”和“工作台”模块,集成AI阅读、AI写作与AI PPT三大工具,打造一站式智能任务中枢,提升用户信息处理效率,用户可切换“智能模式”或“经典模式”使用新功能。据QuestMobile报告显示,百度AI搜索月活用户规模突破3.22亿,居国内AI搜索市场第一。

商汤上线AI剧组工具「Seko」,一句话就能自动生成完整视频

8月12日消息,商汤最近上线了一款叫「Seko」的AI剧组工具,为创作者提供全流程视频生成支持,用户只需用中文描述想法,系统即可自动完成剧本理解、镜头拆解、画面生成和台词配音。「Seko」基于Agent核心系统,自动调动后台各模型协同工作,集成文生图、图生视频、图转图、分镜规划、角色驱动、对口型生成等模块,确保角色形象、场景材质和镜头走位一致性;同时该工具还提供可视化成片编辑体验,支持分镜复制、上下文记忆、成片回看与单镜头替换等,后续将推出一键换脸、局部重绘、音效自动生成等高级功能。

阿里云通义千问推出AI编程智能体「Qwen Code」,每日2000次免费调用

8月12日,阿里云通义千问推出AI编程智能体「Qwen Code」,为中国大陆用户提供每日2000次免费调用(海外用户1000次),无token额度限制。该工具支持代码生成、补全、调试等任务,操作简便(一行命令安装),依托「Qwen3-Coder」系列模型(如4800亿参数的Qwen3-Coder-480B-A35B-Instruct),性能媲美Claude Sonnet-4,助力提升开发效率,推动编程自动化。

DeepSeek App发布新版本,支持「对话内容生成分享图功能」

8月14日,DeepSeek App在手机应用商店发布了1.3.0版本更新,新增了「对话内容生成分享图功能」。新功能允许用户将与DeepSeek App的问答对话内容直接生成为图片,从而省去了传统截屏分享的繁琐步骤。

腾讯混元新开源工具「Hunyuan-GameCraft」,一张图秒变游戏大片

8月14日,腾讯混元新推出的开源工具「Hunyuan-GameCraft」,是一个“游戏视频生成工具”,基于HunyuanVideo底模的高动态交互式游戏视频生成框架,只需要输入一张图+文字描述+动作指令(按键盘方向键),就能输出高清动态游戏视频。

技术突破

字节跳动联合清华大学推出开源视频虚拟试穿框架「DreamVVT」

8月11日,字节跳动联合清华大学推出开源视频虚拟试穿框架「DreamVVT」,显著提升了服装试穿的真实感和细节保真度。该框架是基于扩散变换器(DiT)的分阶段框架,通过整合关键帧试穿和多模态引导的虚拟试穿视频生成,有效地利用了未配对的以人为本的数据、预训练的模型先验和测试时输入,能够在复杂动作和环境中准确展现服装细节,模拟真实的服装动态。

香港大学、月之暗面联合提出新Agent框架「OpenCUA」

8月12日,一篇来自香港大学XLANG Lab 、月之暗面等多家机构联合发布的论文arXiv发表,提出了一个用于构建和扩展的CUA(计算机使用Agent)开源框架「OpenCUA」,帮助用户高效、低门槛开发自主操作电脑的Agent。该框架包括无缝捕获人类计算机使用演示的注释基础设施;第一个跨越3个操作系统以及超200个应用程序和网站的大规模计算机使用任务数据集AgentNet;一个可扩展的、能将演示转换为具有反思性长思维链推理“状态-动作”对的工作流程。

首个可验证长链GUI数据集「VeriGUI」重磅开源

8月13日消息,由2077AI开源基金会牵头构建的全新基准「VeriGUI」重磅开源,旨在解决现有AI模型在长时程规划与复杂交互中的评估瓶颈。「VeriGUI」作为首个可验证长链GUI数据集,包含130个Web任务轨迹,587个子任务,平均每任务步数为214.4;具备长链复杂性(Long-Chain Complexity)与子任务级可验证性(Subtask-Level Verifiability)两大核心特征突破,显著提升了智能体在复杂环境中的执行能力。

微软推出全新标记语言「POML」

8月13日消息,近日微软推出了一种新的标记语言「POML」(Prompt Orchestration Markup Language,提示编排标记语言),旨在为大型语言模型(LLMs)的提示工程提供结构化、可维护性和多功能性。「POML」解决了提示开发中常见的问题,如缺乏结构、复杂的数据集成和格式敏感性。

AI 市场动态

浪潮信息发布面向万亿参数大模型的超节点AI服务器「元脑SD200」

8月7日,浪潮信息发布面向万亿参数大模型的超节点AI服务器「元脑SD200」,单机可同时运行DeepSeek R1、Kimi K2等四大国产开源模型,支持超万亿参数大模型推理及多智能体实时协作,实测性能实现超线性扩展。「元脑SD200」通过3D Mesh开放架构和自研Open Fabric Switch技术,将64张GPU整合为统一内存域,显存空间扩增8倍至4TB,内存达64TB,满足长上下文和海量KV缓存需求。

首届大模型对抗赛结果出炉,「OpenAI o3」夺冠,4比0赢「Grok 4」

8月8日消息,首届大模型国际象棋对抗赛( Google Kaggle AI Chess)结果出炉,「OpenAI o3」在决赛中以4比0击败「Grok 4」,夺得冠军。比赛采用单淘汰赛制,每场比赛为先赢3局者胜。在季军争夺战中,「Gemini 2.5 Pro」以3.5比0.5(三胜一和)强势击败了「OpenAI o4-mini」。

马斯克旗下的xAI宣布,「Grok 4」向全球所有用户免费开放

8月11日,马斯克旗下的xAI宣布,「Grok 4」面向全球用户免费开放,免费用户每12小时内可进行5次查询,超出需订阅付费。此举被视为对标OpenAI同期免费开放的「GPT-5」,马斯克借势抢占市场,但引发付费用户强烈不满,认为订阅费被"背刺"。后续xAI计划8月推出代码模型,9月上线多模态代理,10月发布视频生成功能,同步升级Grok Imagine视频服务,新增视频分享功能、修复下载问题并增加静音控制,增强了图片审核机制。

GitHub将不再独立运营,整体并入微软新成立的CoreAI工程集团

8月12日,GitHub CEO Thomas Dohmke突然宣布辞职,并透露GitHub将不再独立运营,而是整体并入微软新成立的CoreAI工程集团,并且微软也不会再为GitHub寻找新的CEO。此后,GitHub的管理架构将直接与微软的CoreAI团队对接,这意味着GitHub自2018年被微软收购后首次失去“子公司”身份,成为微软AI战略的一部分。

智元机器人发布面向真实世界机器人操控的统一世界模型平台「Genie Envisioner」

8月14日,智元机器人发布面向真实世界机器人操控的统一世界模型平台「Genie Envisioner」(GE) ,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构。GE平台包含GE-Base(多视角视频世界基础模型)、GE-Act(平行流匹配动作模型)和GE-Sim(层次化动作条件仿真器)三大核心组件。基于3000小时真机数据训练,GE-Act不仅在跨平台泛化和长时序任务执行上显著超越现有SOTA,更为具身智能打开了从视觉理解到动作执行的全新技术路径。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×