紧跟AI发展浪潮,洞察行业未来,MIAOYUN「每周AI新鲜事儿」,为您精选全球AI领域的最新动态,涵盖AI新模型发布、AI产品及工具、技术突破、市场动态等,助您走在智能时代前沿,一起来回顾本周发生的AI新鲜事儿吧!
AI 开源模型
字节跳动发布通用机器人模型「GR-3」
7月22日,字节跳动Seed团队提出的全新Vision-Language-Action Model(VLA)模型「GR-3」,具备泛化到新物体和新环境的能力,能理解包含抽象概念的语言指令,还能够精细地操作柔性物体。同时,字节跳动Seed团队还开发了一款具备高灵活性、高可靠性的通用双臂移动机器人「ByteMini」,相当于是专为「GR-3」 这颗“大脑”打造的“灵活躯体”。
Google发布「Gemini 2.5 Flash-Lite」稳定版
7月22日,Google Deepmind正式推出「Gemini 2.5 Flash-Lite」稳定版,定位为“速度最快、性价比最高”的AI模型。该模型支持100万token上下文,每百万输入token仅0.10美元,输出为0.40美元,音频输入价格相比预览版降了40%,平衡速度与成本。其性能优于Gemini 2.0,在编码、数学、推理、多模态理解等方面均有明显提升,并支持Google搜索、代码执行及URL上下文解析等功能。
阿里云通义千问正式发布「Qwen3-Coder」
7月23日,阿里云通义千问正式发布了「Qwen3-Coder」,是迄今为止最具代理能力的代码模型。「Qwen3-Coder」拥有多个尺寸,当前最强大的开源版本「Qwen3-Coder-480B-A35B-Instruct」,是一个MoE模型,拥有480B参数,激活35B参数,原生支持256K token的上下文,并可通过YaRN扩展到1M token。「Qwen3-Coder」拥有卓越的代码和Agent能力,在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use上取得了开源模型的 SOTA 效果。
昆仑万维发布最新音乐模型「Mureka V7」及「Mureka TTS V1」
7月23日,昆仑万维发布最新音乐模型「Mureka V7」,以及全新的音频模型「Mureka TTS V1」。「Mureka V7」支持歌词输入生成完整音乐作品,采用MusiCoT技术,提升旋律动机与编曲质量,增强人声与乐器的真实感,实现更连贯、艺术性更强的创作体验。同时,「Mureka TTS V1」支持Voice Design音色设计能力,通过文本输入即可生成定制音色,覆盖真实人物、虚拟角色等多场景应用,语音质量达4.6分。
字节跳动Seed团队正式发布端到端同声传译模型「Seed LiveInterpret 2.0」
7月24日,字节跳动 Seed 团队正式发布端到端同声传译模型「Seed LiveInterpret 2.0」,是首个延迟&准确率接近人类水平的产品级中英语音同传系统。模型接近真人同传的翻译准确率,准确率在复杂场景中超70%;极低延迟的 “边听边说” 能力,翻译延迟仅2-3秒,较传统系统降低超60%;支持零样本声音复刻,能实时提取说话人音色特质,智能平衡翻译质量、延迟和语音输出节奏。
李沐团队开源语音大模型「Higgs Audio V2」
7月24日,李沐团队在B站推出了手把手教学的语音大模型「Higgs Audio V2」,模型基于1000万小时的音频数据训练,支持文本理解并生成自然的语音对话。该模型具备多种创新能力,如多人对话生成、自动韵律调整、零样本语音克隆、歌声合成和实时语音交互能力等,并在EmergentTTS-Eval等评测中表现领先。该模型核心技术创新包括自动化标注系统、统一的音频分词器Higgs Audio Tokenizer和DualFFN架构。
AI 工具
字节跳动AI编程助手「TRAE」发布2.0版本,新增「SOLO」模式
7月21日,字节跳动的AI编程助手「TRAE」正式发布 2.0 版本,并新增了核心功能「SOLO」模式。「TRAE SOLO」是行业首个 Context Engineer(上下文工程师),它不止协助编码,更能基于精准上下文理解和工具调用,从构思、规划、开发到上线,端到端交付完整功能。
开源语言学习工具「WordPecker」发布
7月21日消息,近期开源语言学习工具「WordPecker」正式发布,这是一款基于LLM和TTS技术的开源语言学习应用,支持从任意内容提取词汇创建个性化列表,通过语音Agent实现沉浸式实时对话练习,提供多样化学习模式,支持100多种语言,以高度个性化和开源特性提升学习效率与趣味性。
腾讯云发布首个产设研一体的AI全栈工程师「CodeBuddy AI IDE」
7月22日,腾讯云推出下一代AI全栈工程师「CodeBuddy AI IDE」,是全球首位贯通“产品-设计-研发”的一体化AI工具。该产品支持自然语言输入需求,就能自动完成从产品构想、设计原型到上线部署的全流程开发;还支持上传手绘稿智能识别还原设计稿,自动生成代码。「CodeBuddy AI IDE」集成了最强大的模型能力:国际版整合 Claude、GPT、Gemini 等主流大模型;国内版则支持腾讯混元、DeepSeek 等国产模型,适用于不同开发场景。
官方揭秘「ChatGPT Agent」原理:通过强化学习让模型自主探索最佳工具组合
7月23日消息,OpenAI开发团队在和投资方红杉资本的圆桌谈话中,首次详细解析了「ChatGPT Agent」功能背后的原理。「ChatGPT Agent」由Deep Research(基于文本的研究智能体)、Operator(基于CUI/操作的计算机智能体)、其他工具(终端、图像生成等)组成,通过共享状态实现整合。OpenAI采用强化学习方法训练Agent,将所有工具集成至虚拟机,让模型自主探索最佳工具组合,无需预先指定使用规则,能流畅切换工具。
AI Agent
零一万物发布「万智企业大模型平台2.0版本」并推出企业级Agent智能体「万仔」
7月22日,零一万物创始人兼CEO李开复博士宣布,升级发布「万智企业大模型一站式平台2.0 版本」,并推出零一万物企业级Agent智能体「万仔」。作为万智平台的核心功能模块,「万仔」以“超级员工”为核心定位,具备深度思考和任务规划能力,基于安全沙盒与MCP,能够访问手机和Web端,连接各类企业服务。同时,零一万物万智平台还提供开发工具与配置平台,企业可以随时随地基于自身业务场景,定制最懂客户需求、解决真实问题的“超级员工”。
京东开源首个完整的多智能体系统「JoyAgent-JDGenie」
7月24日消息,京东团队倾力打造并开源了一款产品级的端到端通用多智能体「JoyAgent-JDGenie」,是首个开源的、完整的多智能体系统,专为实际应用场景设计。该系统在权威GAIA基准测试中以75.15%的准确率位居行业前列,具备多层级协作、多模态处理、记忆优化等特性,支持开箱即用及功能扩展。
技术突破
Meta开源创新大模型架构「AU-Nets」,革新文本处理方式
7月23日消息,近期Meta的研究人员开源了创新架构「AU-Nets」,通过引入一种自回归的「U-Net」结构,彻底改变了传统语言模型的分词和处理模式。「AU-Nets」能够直接从原始字节开始学习,动态地将字节组合成单词、词对,甚至多达四个单词的组合,实现多层次的文本表示。
AI音效生成技术新突破!「FreeAudio」实现精确时间控制与90秒长时音频生成
7月23日信息,近期清华大学与生数科技联合研发的「FreeAudio」系统,实现了长达90秒的音频生成(打破10秒限制),具备精准的时间控制能力,无需额外训练。用户可以根据自然语言指令指定不同音效的时间段,如狼嚎声、蟋蟀鸣叫。实验显示,「FreeAudio」在时间对齐精度和音频质量上表现显著优于以往的免训练方法,且在多个指标上取得了最佳或次优成绩。此外,该系统有效降低了计算开销,具备良好的扩展性与稳定性,将推动音效制作技术的发展。目前已被ACM Multimedia 2025录用,并被AC推荐为Oral录取。
首个统一的图像/视频自适应语义分割框架「QuadMix」刷榜多项基准
7月23日消息,近期由东北大学、武汉大学等研究人员联合提出了一种统一处理图像与视频的无监督领域自适应语义分割「UDA-SS」框架,首次实现了图像与视频任务的融合处理,打破了以往两者割裂的研究格局。该框架名为「QuadMix」,通过四向混合机制和光流引导的时空聚合模块,有效缩小源域与目标域之间的差异,提升了模型在不同场景下的泛化能力,刷新多项基准记录。
AI市场动态
黄仁勋央视专访:中国供应链与市场、科技企业与创新
7月20日,央视播出了NVIDIA创始人兼CEO黄仁勋在《面对面》栏目专访录像,黄仁勋深度分享了自己对中国供应链、市场、科技企业、科技创新的看法,并重申了NVIDIA对中国的长期承诺。他强调全球供应链无法彻底脱钩,中国供应链规模和技术含量堪称世界级奇迹,在当今动荡环境中世界比以往更需要中国供应链专业能力;中国创新的步伐是不可能被阻挡的,同时表示敬佩华为的技术能力,乐观认为中美能找到竞争与合作共存的方式。
100万卡 VS 5000万卡,硅谷巨头算力军备竞赛白热化
7月21日消息,OpenAI首席执行官Sam Altman在Twitter上预告,OpenAI计划年底前上线超过100万张GPU,对标马斯克xAI五年内部署5000张H100 GPU的等效算力目标,算力军备竞赛白热化。OpenAI通过自研芯片、星门计划和微软合作三条路径追求算力自主,The Information援引投资人会议的消息称,OpenAI计划到2030年,将75%算力来源转移至星门项目。
美国白宫发布「AI行动计划」
当地时间7月23日,美国特朗普政府发布了「AI行动计划」,旨在通过放宽监管和扩大数据中心能源供应等措施,加速美国人工智能的发展。该计划围绕加速AI创新、建设AI基础设施以及引领国际AI外交与安全的三大支柱展开。主要政策包括:推动美国全栈人工智能技术出口;优化审批程序,加速数据中心基础设施建设;在联邦和各州层面,消除阻碍人工智能创新和采用的监管法规;鼓励发展开源人工智能模型;维护前沿模型的言论自由,禁止对其施加意识形态偏见。