MIAOYUN | 每周AI新鲜事儿 250627

紧跟技术浪潮,洞察行业未来,MIAOYUN「每周AI新鲜事儿」,为您精选全球AI领域的最新动态,涵盖AI大模型技术、AI产品及工具、市场动态及趋势发展等,助您走在智能时代前沿,一起来回顾本周发生的AI新鲜事儿吧!

AI开源大模型

华为云发布盘古大模型5.5,宣布新一代昇腾AI云服务上线,发布鸿蒙智能体

6月20日,在华为开发者大会2025(HDC 2025)主题演讲中,华为常务董事、华为云计算CEO张平安宣布基于CloudMatrix384 超节点的新一代昇腾AI云服务全面上线,为大模型应用提供澎湃算力;宣布盘古大模型5.5正式发布,自然语言处理(NLP)、计算机视觉(CV)、多模态、预测、科学计算五大基础模型全面升级。同时,张平安还分享了盘古大模型在农业、工业、科研等领域的丰富创新应用和落地实践,持续深入行业解难题,成就行业AI先锋。

会上,华为还推出鸿蒙智能体,首批超50个智能体即将上线,涵盖效率工具、教育医疗等领域,实现多设备协同。用户可通过导航条、语音等方式调用,如ChatExcel聊天处理Excel,大众点评智能体推荐美食等,大幅降低使用门槛,为鸿蒙生态注入新活力,开启智能交互新纪元。

昆仑万维正式发布并开源Skywork-SWE-32B模型

6月20日,昆仑万维发布软件工程(Software Engineering, SWE)自主代码智能体基座模型Skywork-SWE,在开源32B模型规模下实现了业界最强的仓库级代码修复能力。该模型基于超1万个GitHub仓库任务实例构建最大可验证数据集,在SWE-bench Verified基准上的准确率达到38.0%,通过测试扩展技术可提升至47.0%,性能领先开源模型。团队通过三阶段收集验证训练数据,从15万个仓库中筛选出高质量样本,并借助OpenHands框架记录智能体解决过程,确保模型训练效果。目前,Skywork-SWE-32B模型已在Hugging Face平台上线,开发者可免费获取。

腾讯AI Lab开源SongGeneration音乐生成大模型

6月20日,腾讯AI Lab推出并开源音乐生成大模型SongGeneration,专注解决AIGC音乐中音质、音乐性与生成速度这三大难题,基于LLM-DiT的融合架构,模型在保持生成速度的同时,显著提升了音质表现,生成歌曲准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。该模型还支持文本控制、风格跟随、多轨生成和音色跟随,提供灵活的音乐风格调整与简单易用的操作接口。

谷歌开源实时音乐生成模型Magenta RealTime

6月22日,Google Gemma团队发布开源了实时音乐生成模型Magenta RealTime,基于Transformer架构、8亿参数,依托Lyria RealTime技术,能以2秒音频片段为单位生成48kHz立体声音频,支持通过文本提示实时调整风格、节奏等,在游戏、直播等场景可动态混音。目前,已在Hugging Face开源并提供Colab运行环境,单次输出限制10秒但侧重实时交互创作。

网易有道发布并开源“子曰3”系列大模型

6月23日,网易有道正式发布并开源旗下最新“子曰3”系列大模型(Confucius3-Math),这是国内首个专注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。该模型在GAOKAO-Bench(Math)评测中取得98.5分的优异成绩,推理性能约为DeepSeek R1的15倍,且可在普通消费级GPU上运行,服务成本每百万token低至0.15美元。

MiniMax发布Voice Design音色设计功能

6月23日,MiniMax发布Voice Design音色设计功能,实现基于自然语言描述的多维语音控制,可生成前所未有的虚拟音色。该功能与Speech-02语音模型深度融合,支持“任意语言 ×任意口音×任意音色”的自由组合,满足个性化语音交互需求。目前,Voice Design已在MiniMax语音平台上线,广泛应用于虚拟助手、语音播报、游戏角色配音等领域,全球合作用户已覆盖30多个国家。

阿里云推出自动驾驶模型加速框架

6月23日,阿里云正式推出面向自动驾驶领域模型的训练、推理加速框架PAI-TurboX。该框架可提升感知、规划控制乃至世界模型的训推效率,在多个行业模型的训练任务中,PAI-TurboX均可缩短50%的时间。

VectorSpaceLab开源全能多模态模型OmniGen2

6月24日消息,VectorSpaceLab在Hugging Face平台正式开源全能多模态模型OmniGen2,以创新性双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式AI基础工具。这款模型由30亿参数的视觉语言模型(VLM)Qwen-VL-2.5与40亿参数的扩散模型组合而成,通过冻结的VLM解析视觉信号和用户指令,结合扩散模型实现高质量图像生成,在视觉理解、文本生成图像、指令引导图像编辑和上下文生成四大核心场景中展现出领先性能。
火山引擎发布模态向量化模型Seed1.6-Embedding

6月24日,火山引擎发布全模态向量化模型 Seed1.6-Embedding,通过三大核心突破,重塑向量化能力边界:不仅在权威测评榜单中包揽中文文本、多模态全面任务的 SOTA 成绩,更首次实现「文本+图像+视频」混合模态的融合检索,并通过自定义指令能力大幅降低业务落地门槛。

快手开源多模态大模型Kwai Keye-VL

6月26日,快手发布并开源多模态大语言模型Kwai Keye-VL,该模型以Qwen3-8B语言模型为基础,引入了基于开源SigLIP初始化的 VisionEncoder,Kwai Keye-VL能够深度融合并处理文本、图像、视频等多模态信息。模型采用600B大规模数据训练,通过四阶段渐进式预训练策略和创新的两阶段推理能力强化,实现复杂视觉感知与逻辑思考;在VideoMME评测得分67.4分超越竞品,内部短视频场景评测领先SOTA模型超10%。

技术突破

腾讯发布一念LLM 0.6.0新版本,满血版DeepSeek推理吞吐提升48%

6月23日,腾讯发布一念LLM 0.6.0新版本,该版本支持DeepSeek模型和分布式推理,针对PCG业务中GPU资源供应灵活性要求高的特点,实现了流水线并行(PP)的multi-batch 分布式推理方式,相比业界常见的多机DP+EP方案,跨机通讯量降低98.3%,机器之间可用TCP通讯,降低运营难度,且吞吐达 9084 tokens/s,比业界开源框架(vllm/sglang最新版)高48%。

龙芯中科发布新一代国产通用处理器龙芯3C6000

6月26日,在2025龙芯产品发布暨用户大会上,龙芯中科发布了新一代通用处理器龙芯3C6000系列芯片、工控领域及移动终端处理器龙芯2K3000/3B6000M芯片,以及相关整机和解决方案。龙芯3C6000采用我国自主设计的指令系统龙架构(LoongArchTM),无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,可满足通算、智算、存储、工控、工作站等多场景的计算需求。目前,龙芯3C6000系列处理器已获《安全可靠测评公告》当前最高等级二级认证,可确保关键领域应用安全。

AI工具

百度文心快码Comate AI IDE正式发布

6月23日,百度文心快码在百度AI开放日发布了独立AI原生开发环境工具——Comate AI IDE,是行业首个多模态、多智能体协同的AI IDE。该产品基于文心大模型能力打造,支持全栈国产化部署,在“智能”、“拓展”、“协同”、“灵感”四大方面实现全方位链接,具备多项核心能力:AI辅助编码全流程、多智能体协同、多模态能力增强、支持MCP等,已成为AI时代工程师的“工作台”。

开源AI设计工具Jaaz挑战商业AI设计平台格局

6月23日消息,国产开源AI设计工具Jaaz近期在开发者社区引发关注,被誉为Lovart AI的本地化免费替代方案。Jaaz基于ComfyUI框架构建,支持多种图像生成模型本地运行,并可通过自然语言交互完成海报、故事板等创意设计任务,具备对象移除、风格迁移、角色一致性生成等功能,适用于创意设计、教育等多个场景。目前,Jaaz已在GitHub免费开源,未来规划拓展视频生成功能。

谷歌推出开源AI编程工具Gemini CLI

当地时间6月25日,Google发布了一篇关于开源编程工具Gemini CLI的文章(不久删除),但内容已被广泛传播。该工具是一款旨在从终端本地运行的代理式AI工具,搭载自研的Gemini 2.5 Pro推理模型,支持高达100万个token的超大上下文窗口,可处理复杂代码库和多模态任务;同时与Gemini Code Assist代码助手深度整合,内置模型上下文协议(MCP)并接入Google搜索功能;免费额度也远高于同类产品,每分钟可调用60次,每日最多1000次。

AI Agent

模型即Agent,月之暗面发布首款深度研究智能体Kimi-Researcher

6月20日,月之暗面发布首款深度研究智能体Kimi-Researcher,该产品基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,也是一个专为深度研究任务而生的Agent产品。作为擅长多轮搜索与推理的智能体,Kimi-Researcher在“人类终极考验”(HLE)测试中Pass@1得分率达26.9%、Pass@4准确率40.17%,超越谷歌和OpenAI同类产品,还在xbench-DeepSearch等多项基准测试中表现出色。

「码上飞」首个支持直接生成华为鸿蒙应用的AI Agent

6月20日至22日,在华为开发者大会(HDC 2025)上,「码上飞」AI Agent平台广获开发者关注,该平台支持通过自然语言对话直接生成鸿蒙应用。「码上飞」采用多智能体系统(MAS)技术,内置多个Agent协同完成从需求分析到部署的全流程自动化开发。实测显示用户仅需5分钟即可生成功能完整的应用,支持一键发布为小程序、APP或网站,并可获取源代码。

AI产业趋势

美国经济学家语言:AGI可能在2-5年内实现,将伴随AI失业潮

6月23日消息,哈佛商学院放出视频,采访了一位美国经济学家。他向全人类预警:AGI可能在短短2-5年内就将实现,AI失业潮将席卷全球,一不小心,全球经济就将发生大崩溃!他向全人类预警:AGI可能在短短2-5年内就将实现,AI失业潮将席卷全球,一不小心,全球经济就将发生大崩溃!

Gartner发布2025年中国人工智能十大趋势

当地时间6月25日,Gartner发布2025年中国人工智能(AI)十大趋势,指出企业应关注AI可持续发展路径、实际效益与应用场景。这十大趋势包括开放式GenAI模型、“自建” 策略倾向、代理型AI、节俭型AI、工程化能力、协作式AI防御体系、快速增长的AI人才、无处不在的AI、包容性AI生态系统、从数据到AI的生态系统。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×