本周AI领域迎来一轮发布与突破高峰,大模型层面,多模态与视觉语言模型成为焦点,多家公司推出新模型,在复杂推理、图像生成等任务上表现卓越,且开源成为重要趋势。技术层面,研究集中在提升训练与推理效率上,涌现出无需训练即可优化模型、解耦推理架构等新方法,大幅降低了成本。同时,AI应用正深入化工、编程等垂直领域,而硬件芯片、机器人评测平台及行业政策的最新动态,也为AI生态的全面发展注入了新动力,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
抖音SAIL团队与LV-NUS Lab联合推出多模态大模型「SAIL-VL2」
10月12日消息,抖音SAIL团队与LV-NUS Lab近期联合推出的多模态大模型「SAIL-VL2」,采用稀疏混合专家架构,动态支持任意分辨率输入,并通过三阶段训练策略(热身适应→细粒度对齐→世界知识注入)实现跨模态深度对齐。该模型以2B、8B等中小参数规模,在106个数据集实现性能突破,尤其在MMMU、MathVista等复杂推理基准超越同规模模型,甚至比肩更大参数的闭源模型。
蚂蚁集团正式发布万亿参数思考模型「Ring-1T」
10月14日,蚂蚁集团旗下AI品牌蚂蚁百灵正式发布万亿参数思考模型「Ring-1T」,并宣布全面开源模型权重及训练配方。该模型基于Ling 2.0架构,在1T总参数、50B激活参数的 Ling-1T-base基座上进行训练,支持最高128K上下文窗口,具备高效推理能力,在数学竞赛(AIME 25、HMMT 25),代码生成(CodeForces)、逻辑推理(ARC-AGI-v1)取得开源领先水平。
微软推出其首款完全自研的文生图模型「MAI-Image-1」
10月14日,微软AI推出其首款完全自研的文生图模型「MAI-Image-1」。该模型在光影效果、自然景观等超写实图像生成上表现突出,首次亮相即以1096分排在权威评测平台LMArena文生图榜单第9名。
阿里通义千问团队推出最强视觉语言模型「Qwen3-VL-4B/8B」
10月15日,阿里通义千问团队推出其最强视觉语言模型系列「Qwen3-VL」的4B与8B版本(含Instruct与Thinking版本),在几十项权威基准测评中超越「Gemini 2.5 Flash Lite」、「GPT-5 Nano」等同级模型。这两款都是密集(Dense)视觉理解模型,实现了“视觉精准”与“文本稳健”的协同突破:通过架构创新和技术优化,让模型在保持强大文本理解能力的同时,显著增强多模态感知与视觉理解能力。
字节跳动开源专注人脸理解与生成的视觉语言模型「FaceCLIP」
10月15日,字节跳动开源「FaceCLIP」模型,一款专注人脸理解与生成的视觉语言模型。其核心创新在于身份保持型图像生成框架,用户输入参考人脸与文本描述,模型能生成保留身份特征且符合文本指令的新图像。该模型采用多模态编码策略,深度融合人脸特征与语义提示,在真实感等指标上优于同类方法,有「FaceCLIP-SDXL」和「FaceT5-FLUX」两个版本,但存在特定族裔特征偏差与高显存要求的局限。
Radical Numerics推出全球最大规模开源扩散语言模型「RND1-Base」
10月15日消息,AI研究机构Radical Numerics正式推出「RND1-Base」,成为当前参数规模最大(30B)且完全开源的扩散语言模型。该模型是一个实验性的30B参数稀疏专家混合(Mixture-of-Experts)模型,具有3B活跃参数,它从预训练的AR模型 (Qwen3-30BA3B) 转换而来,并经过500B token的持续预训练,最终实现了完整的扩散行为。
Google更新了旗舰视频生成模型「Veo 3.1」
10月16日,Google更新了旗舰视频生成模型「Veo 3.1」,此次更新主打更强的叙事与音频控制、更丰富的输入与编辑能力两大亮点,并进一步提升了首尾帧与多图参考等精控,接入Gemini API与Vertex AI,Flow与Gemini可用。模型支持720p或1080p分辨率24fps视频,原生时长4-8秒,使用Extend功能最长可扩展至148秒,可合成多人物场景并实现音画同步。
Anthropic发布轻量级模型「Claude Haiku 4.5」
10月16日,Anthropic发布轻量级模型「Claude Haiku 4.5」,现已面向所有用户开放。据介绍,这是其最小型模型的最新版本,性能与「Claude Sonnet 4」相近,但成本仅为后者的三分之一,推理速度却超过两倍。在计算机使用基准OSWorld上得分50.7%,超越「Sonnet 4」的42.2%;在数学推理测试中借助Python工具支持,成绩高达96.3%远超「Sonnet 4」的70.5%。
火山引擎全新发布和升级了四款豆包大模型
10月16日,火山引擎全新发布和升级了四款豆包大模型:升级「豆包大模型1.6」,原生支持4种思考长度,是国内首个原生支持“分档调节思考长度”的模型;推出「豆包大模型1.6 lite」,更轻量、推理速度更快。同时发布「豆包语音合成模型2.0」和「豆包声音复刻模型2.0」,基于豆包大语言模型研发语音合成新架构,让合成和复刻的声音都能解锁深度语义理解和上下文理解能力,具备更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式。
阿里通义千问正式上线「Qwen Chat Memory」功能
10月16日, 阿里通义千问正式上线「Qwen Chat Memory」功能,赋予AI长期记忆能力。该功能可主动识别并存储用户偏好、习惯与历史对话内容,在后续交流中自动调用背景信息,实现上下文连贯理解;所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权。
李飞飞World Labs重磅发布全新实时生成式世界模型「RTFM」
10月17日,李飞飞World Labs重磅发布全新实时生成世界模型「RTFM」(Real-Time Frame Model,实时帧模型),通过端到端学习大规模视频数据,直接从输入2D图像生成同一场景下新视角的图像。仅需一块H100 GPU,「RTFM」就能实时渲染出持久且3D一致的世界,无论是真实场景还是想象空间。
AI Agent
中国石油大学打造AI系统,助力化工领域自主创新
10月12日消息,近期中国石油大学研究团队打造了一款名为「Cyber Academia-Chemical Engineering」的AI系统,模拟不同领域专家的协作以实现化工领域的自主研究和创新。该系统由七个智能体组成,涵盖分子设计、工程验证等多个专业,能够自主演化并发现科学问题。团队为解决AI专家间的“幻觉”现象,开发了三重知识增强机制,提升了对话质量。此外,通过引入本体工程技术,促进不同领域专家间的有效沟通,以消除语义鸿沟,从而推动真正的技术创新和问题解决。
阿里巴巴推出全新AI编程工具「Qoder CLI」,专为命令行环境打造
10月16日,阿里巴巴全新AI编程工具「Qoder CLI」(命令行界面)正式上线,这是一款专为命令行环境打造的AI Coding Agent,基于自研轻量级Agent框架,集成了业界最顶尖的编程模型,不仅具备强大的代码生成与理解能力,还有效降低内存消耗和命令响应时间,进一步提升开发效率。官方数据显示,其空闲内存占用比同类工具低70%,常见指令响应时间低于200毫秒,同时支持Quest模式任务分解与CodeReview能力,可减少50%审查耗时,提升代码质量一倍。
技术突破
清华大学与生数科技团队联合推出「Bridge-SR」和「AudioLBM」
10月12日消息,清华大学与生数科技团队在音频超分辨率领域提出了两项新模型:轻量化语音波形超分模型「Bridge-SR」和面向高达192 kHz音频的多功能超分框架「AudioLBM」。「Bridge-SR」首次引入薛定谔桥模型,利用低分辨率波形作为生成先验,以高效且高保真的方式实现语音超分,参数仅1.7M。「AudioLBM」在此基础上实现了从波形域生成到隐空间建模的转变,采用频率感知机制与级联桥类模型,实现了任意采样率音频的超分,取得了新的SOTA表现。
中国科学院推出全新多模态大语言模型推理架构「SpaceServe」
10月12日消息,中国科学院在NeurIPS 2025上推出了「SpaceServe」突破性架构,一种全新的多模态大语言模型(MLLM)推理架构。该架构首次将LLM推理中的编码器和解码器分离,采用EPD三阶段解耦及空分复用技术,系统性地解决了MLLM推理中的行头阻塞难题。
科学家研发了RISC-V算子优化新框架「EoK」,实现1.27倍加速
10月12日消息,香港城市大学研究者开发了大模型新框架「EoK」,旨在优化RISC-V架构下的算子性能。「EoK」通过系统化挖掘开源算子库的开发历史,建立了一个优化“想法”池,为大模型提供数据驱动的指导。该框架采用基于检索增强生成的并行搜索策略,通过同时探索多个优化方向,并结合RISC-V特定的上下文信息(包括ISA手册和硬件配置文件),显著提高算子设计的效率和效果。最终,在80个算子设计任务中,实现了中位数1.27倍的加速效果,超越了人类专家的性能,并提升了现有大模型方法的20%。
腾讯发布「Training-Free GRPO」技术,大模型优化成本降98%
10月13日,腾讯优图实验室推出「Training-Free GRPO」(无训练组相对策略优化)技术,无需更新模型参数、仅通过“上下文学习”就能提升LLM代理性能的新方法。以往一次参数微调需花费约7万元,而该技术通过外部知识库存储和token级先验信息注入,实现模型参数冻结下的性能提升,单次优化成本仅需120元,降幅高达98%。在DeepSeek-V3.1-Terminus模型测试中,数学推理任务准确率显著上升,且仅用100个跨域样本即达到传统方法数千样本的效果,网络搜索任务Pass@1信号标也有明显改善。
腾讯优图实验室开源强化学习算法「SPEAR」
10月14日消息,腾讯优图实验室近期开源了强化学习算法「SPEAR」,首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过“自我模仿+渐进探索”实现熵稳定的学习过程,在ALFWorld、WebShop、AIME24/25等基准上平均提升16%以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。
巨人网络与清华联合发布多方言语音合成大模型框架「DiaMoe-TTS」
10月15日消息,近日巨人网络AI Lab与清华大学电子工程系SATLab联合发布了多方言语音合成大模型框架「DiaMoe-TTS」,并将数据、代码以及方法全部开源。该框架基于语言学家的专业经验,构建了一个统一的IPA表达体系,仅依赖开源方言ASR(自动语音识别)数据,解决了以往工业级模型对专有数据依赖的问题。在此之前,该框架已在英语、法语、德语等多种语言场景中进行了广泛验证,展现出强大的多语言可扩展性与稳健性。
市场动态
苹果宣布推出新一代自研电脑芯片M5,AI性能飙升3.5倍
10月15日,苹果宣布推出新一代自研电脑芯片M5,采用第三代3nm制程工艺,最高10核CPU、10核GPU、16核神经网络引擎,每个GPU核心都增加了一个神经网络加速器,基于GPU的AI峰值性能达到上一代M4芯片的4倍以上。M5统一内存带宽153GB/s,比M4提升近30%,最高可选配32GB内存,能在设备端运行更大规模AI模型,搭载M5的设备AI性能是M4版的3.5倍。
全球首个大规模、多任务的真实物理机器人基准评测平台「RoboChallenge」重磅推出
10月15日消息,全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试「RoboChallenge」重磅推出,该平台由专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起。该平台旨在解决具身智能领域长期存在的“模拟到现实的落差”问题,为研究者提供一个严谨、公正的现实环境测评方式,弥合模拟测试与现实部署之间的差距。
OpenAI宣布ChatGPT将在12月推出「成人模式」
10月15日,OpenAI的CEO Sam Altman在X上发帖宣布,ChatGPT将在12月推出「成人模式」,将允许通过年龄验证的成年用户访问成人向内容,这一政策调整将伴随完整的年龄验证系统一并实施。ChatGPT的限制将分阶段大幅放宽,旨在回归深受用户喜爱的流畅、拟人化体验。