MIAOYUN | 每周AI新鲜事儿 250711

在科技飞速发展的当下,AI已成为推动各行业变革的核心力量。为助力您紧跟AI发展浪潮,把握前沿动态,MIAOYUN特别推出「每周AI新鲜事儿」,涵盖新模型发布、技术突破、AI行业动态等多个方面,一起来回顾本周发生的AI新鲜事儿吧!

AI开源模型

昆仑万维开源第二代奖励模型「Skywork-Reward-V2」系列

7月4日,昆仑万维继续开源第二代奖励模型「Skywork-Reward-V2」系列,共包含8个基于不同基座模型和不同大小的奖励模型,参数规模从6亿到80亿不等,在七大主流奖励模型评测榜单中全面领先。该系列基于4000万对混合偏好数据训练,具备高泛化性、安全性与抗偏差能力,适用于强化学习中的多维人类偏好对齐。

腾讯混元推出业界首个美术级3D生成大模型「Hunyuan3D-PolyGen」

7月7日,腾讯混元3D再次升级,带来了业界首个美术级3D生成大模型「Hunyuan3D-PolyGen」。该模型结合自研高压缩率表征BPT技术和自回归框架,可生成面数达上万面的复杂几何模型,实现高面数、低冗余建模,强化学习提高生成稳定性,助力美术师建模效率超70%。

阿里发布多模态大语言模型「HumanOmniV2」

7月8日,阿里巴巴通义实验室团队推出最新多模态大语言模型「HumanOmniV2」,通过引入强制上下文总结机制、LLM驱动的多维度奖励体系,以及基于GRPO的优化训练方法,提升了全局上下文理解与多模态推理能力,在多个权威基准测试中表现优异(如IntentBench测试准确率达69.33%),具备广泛应用潜力,现阶段已开源。

蚂蚁集团联合浙大发布「KAG-Thinker」模型

7月8日,蚂蚁集团知识引擎团队联合浙江大学、同济大学发布了其在结构化推理领域的最新成果「KAG-Thinker」模型。该模型是KAG框架的重要迭代升级,采用结构化推理方法,通过通过「广度拆分+深度求解」机制,提升复杂任务推理的逻辑性与稳定性,实验显示其性能优于现有SOTA方法4.1%,并在医疗领域推出专业版KAG-Med-Thinker验证有效性。

昆仑万维开源38B参数多模态模型「Skywork-R1V 3.0」

7月9日,昆仑万维发布并开源多模态推理模型「Skywork-R1V 3.0」,参数规模为38B。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,推理速度提升6倍,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。该模型在权威基准测试MMMU中以76.0分接近人类专家水平,并超过超过Claude-3.7-Sonnet和GPT-4.5等闭源模型。

Hugging Face发布轻量级开源语言模型「SmolLM3」

7月9日,Hugging Face发布轻量级开源语言模型「SmolLM3」,该模型只有3B参数,却在多项基准测试中性超越Llama-3.2-3B 、Qwen2.5-3B等同类开源模型。「SmolLM3」采用分组查询注意力与NoPE技术,推理效率高且支持最长 128K 上下文长度,支持英语、法语、西班牙语、德语等6种语言;其双模式推理机制可在“思考”与“非思考”之间切换,满足复杂任务动态需求。

**xAI推出「Grok 4」双版本,马斯克再战AI大模型战场 **

当地时间7月9日,马斯克旗下人工智能公司xAI正式发布其最新旗舰大模型「Grok 4」,号称是“世界上最强AI模型”。该系列包含Grok 4和Grok 4 Heavy两个版本,均为纯推理模型,分别面向内容创作与编程开发场景。Grok 4是单代理版本,Grok 4 Heavy是多代理版本,支持四个代理同时工作,上下文窗口最高支持256k tokens。Grok4采用20万个GPU进行训练,性能较前代提升10倍。

微软开源「Phi-4-mini-flash-reasoning」,推理效率暴涨10倍

7月10日,微软在官网开源了「Phi-4-mini-flash-reasoning」模型,在推理速度和资源占用方面实现重大突破。相比上一代模型推理效率提速10倍以上,延迟平均降低2-3倍,普通笔记本和平板设备均可流畅运行,尤其擅长处理长文本任务。该模型基于微软与斯坦福大学联合研发的SambaY架构,训练数据高达5万亿token,在数学逻辑推理方面表现优异,32K长度任务准确率达78%,现已面向开发者开放体验。

技术突破

全新的氛围编程,「上下文工程」构建真正高效的 AI Agent

7月6日消息,继「提示工程」之后,硅谷爆火的「上下文工程」(Context Engineering)是一种系统化的方法论和技术栈,其核心目标是在与大语言模型(LLM)交互时,动态地、精准地为其构建和提供最相关、最优质的上下文(Context)信息,从而让模型能够生成更准确、更可靠、更具个性化的回答。

基于能量的「Transformer EBT」全面超越主流模型35%

7月8日消息,弗吉尼亚大学团队最新提出EBT(Energy-Based Transformers)架构,通过全新能量机制,首次实现在跨模态以及数据、参数、计算量和模型深度等多个维度全面超越Transformer++(基于Llama 2的Transformer优化版本)的模型。数据显示,训练过程中EBT的扩展速率最高可提升35%, 推理效率提高29%,具备更强的扩展性和泛化能力。

「SpeedupLLM」框架验证大模型越用越快,推理成本降低56%

7月9日消息,Emory大学提出「SpeedupLLM」框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时,推理成本降低56%,实验表明任务相似度越高提速越显著,情节式记忆在推理加速上表现更佳。论文首次系统性地验证了LLM在「有经验」的条件下,不仅性能不降,反而能大幅减少推理时间和计算资源,揭示了「AI也能熟能生巧」的全新范式。

视频超分辨率技术突破:「DLoRAL」开源项目实现10倍速高清化

7月9日消息,香港理工大学与OPPO研究院联合研发的「DLoRAL」开源项目,利用AI技术实现了真实世界视频的高清修复,解决了视频处理中“清晰度”与“流畅性”难以兼顾的业界难题。「DLoRAL」通过创新的“双LoRA学习”思路,一个处理时间一致性(C-LoRA),一个增强空间细节(D-LoRA),并采用双阶段训练策略,实现单步扩散即可完成视频修复,速度是传统扩散方法的10倍以上。

AI Agent

阿里通义开源网络智能体「WebSailor」

7月7日,阿里通义宣布开源网络智能体「WebSailor」,包含WebSailor-32B和WebSailor-72B两个版本,具备强大的推理和检索能力,发布后在智能体评测集BrowseComp上登顶开源网络智能体榜单。

飞书AI全新升级,发布多款AI工具及AI应用成熟度模型

7月9日,飞书发布知识问答、AI会议和多维表格等工具,其中多维表格月活超千万行且容量翻10倍,加载速度降至0.94秒。企业级AI Agent飞书aily落地公牛集团,提升客服效率30倍,并发布行业首个AI应用成熟度标准模型。

Hugging Face推出开源桌面机器人「Reachy Mini」

7月9日,Hugging Face推出最新开源桌面机器人「Reachy Mini」,专为人机交互、创意编程和AI实验而设计。该产品提供Lite版(299美元)和无线版(449美元),支持Python编程并预装演示程序,深度集成Hugging Face Hub平台(含超170万AI模型及40万数据集),预计Lite版下月发货,无线版年内发货。

AI行业动态

AI行业人才争夺加剧,OpenAI反手挖角Meta顶尖工程师

7月9日,据《连线》杂志消息,OpenAI总裁Greg Brockman本周在公司Slack群里宣布从Tesla、xAI和Meta挖来四位顶尖工程师,并将加入其关键的 Scaling(扩展)团队,助力「星门计划」(Stargate)项目。该项目是OpenAI与合作伙伴共同建设的全新AI基建中心,计划投资 5000 亿美元,目标是为下一代AI技术(如通用人工智能 AGI)提供算力和数据支持。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×