MIAOYUN | 每周AI新鲜事儿 251107 ​

本周AI领域动态密集,美团、360、银河通用、字节、腾讯、Kimi与科大讯飞等分别发布多模态、图文、导航及视频推理模型;工具层面,寒武纪、百度、昆仑万维、腾讯均推出新平台或功能。技术方面,在长序列处理、多智能体协同及代码执行效率上取得突破。市场方面,OpenAI与AWS达成巨额合作,小鹏发布人形机器人「IRON」。整体呈现高效化、多模态与实用化趋势,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

腾讯联合厦门大学开源3D场景生成模型「FlashWorld」

10月30日消息,腾讯联合厦门大学开源的3D场景生成模型「FlashWorld」,能够在单GPU上以5-10秒的速度,从单张图像或文本提示中生成高质量3D场景,速度提升可达10至100倍。该模型通过跨模式蒸馏技术,结合多视角和三维两种方案的优势,实现了高保真与3D一致性。

以色列AI公司Lightricks推出视频生成模型「LTX-2 AI」

10月31日,以色列AI公司Lightricks推出视频生成模型「LTX-2 AI」,成为首个支持原生4K分辨率、50帧每秒输出且具备音画同步能力的开源模型。该模型采用混合扩散-变换器架构,是一个融合“时域(Time)+空间(Frame)+声波(Audio)”的扩散模型,支持多种输入控制方式,包括镜头运动指令、物体轨迹设定等,赋予创作者更高自由度。内置LoRA微调模块,允许用户使用少量样本训练专属风格模型,保持跨场景一致性。此外,「LTX-2 AI」可在消费级GPU上本地运行。

美团发布并开源全模态实时交互大模型「LongCat-Flash-Omni」

11月3日,美团正式发布并开源全模态实时交互大模型「LongCat-Flash-Omni」,并同步推出首款AI助手App「LongCat」,开启多模态交互新阶段。该模型总参数量560B,激活参数27B,是业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型,支持128K上下文窗口及超8分钟音视频交互,在文本、图像、音频、视频等各项模态的能力达到开源SOTA。

360人工智能研究院开源「FG-CLIP2」成最强图文跨模态VLM模型

11月4日,360人工智能研究院最新开源的「FG-CLIP2」模型,在八大类任务、29项测试中,全面超越Google与Meta,成为目前最强的图文跨模态视觉基础(VLM)模型。该模型通过实现局部细粒度识别与中英双语均衡训练,解决了以往视觉模型的局部理解能力不足的问题,能够准确解析复杂场景和空间关系。其训练体系采用了FineHARD数据集和“两阶段”训练策略,使模型在细节、空间与语义的感知能力显著提升,推动AI视觉理解的行业基准向前发展。

银河通用联合高校推出首个跨本体全域环视导航基座大模型「NavFoM」

11月5日,银河通用联合北京大学、阿德莱德大学等多所顶尖高校推出全球首个跨本体全域环视导航基座大模型「NavFoM」(Navigation Foundation Model)。该模型创新应用TVI Tokens与BATS策略两项关键技术,还构建了一个跨任务数据集,包含800万条跨任务、跨本体导航数据和400万条开放问答数据,实现时空理解和实时响应,让机器人“看懂指令、自主走路”。基于该模型,银河通用还发布「TrackVLA++」、「UrbanVLA」和「MM-Nav」三个应用模型,针对不同的落地需求。

北京字节联合开源首个时空推理视频模型「Open-o3 Video」

11月5日,北京大学和字节跳动联合推出了首个将显式时空证据嵌入视频推理全过程的开源模型「Open-o3 Video」,让AI不仅能回答有关视频内容问题,还能在思维过程中同步直观标出具体位置,真正实现有迹可循的视频推理。模型采用non-agent架构,避免了复杂的工具调用和多轮推理,关键指标可提升至24.2%,性能表现超越「GPT-4o」和「Gemini-2-Flash」等模型。

月之暗面发布迄今能力最强的开源思考模型「Kimi K2 Thinking」

11月6日,月之暗面发布「Kimi K2 Thinking」,是Kimi迄今能力最强的开源思考模型,具有通用Agentic能力和推理能力的思考模型,擅长深度推理,可以通过多轮工具调用,解决各类复杂的难题。在人类最后的考试(Humanity’s Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平。

科大讯飞发布「讯飞星火X1.5」及系列AI产品

11月6日,科大讯飞发布全新星火深度推理大模型「X1.5」,基于全栈国产算力平台训练,采用MoE架构,总参数293B,推理激活仅30B,推理效率相比「讯飞星火X1」提升100%。其语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等六大核心能力对标国际主流大模型,其中,数学能力持续保持国际领先。

AI 工具

寒武纪推出基础软件平台「Cambricon NeuWare」

11月3日,寒武纪正式发布基础软件平台「Cambricon NeuWare」,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署AI应用。该平台全面兼容最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移,在大模型与搜广推训练推理方面完成大规模技术验证,支持DeepSeek V3、Qwen系列等MoE类模型训练,实现发布即适配。此外,平台还提供完整的驱动运行时库、编译器、算子库和集群工具,推动AI能力真正走进千行百业。

百度文心APP推出「魔法漫画」功能

11月3日,百度文心APP推出「魔法漫画」功能,用户只需一句话或一张照片,两分钟即可生成多图多页、剧情完整的AI连载漫画。该功能支持自定义角色形象、九种风格选择(吉卜力、二次元、国风水墨等),每页漫画自动生成文字解说,可一次性生成6-7页。此外,还支持“续写”和“改编”功能,用户可基于原剧情延伸或重写新版本,生成的漫画可下载图片或分享到微信朋友圈。

昆仑万维全新AI视频创作平台「SkyReels」正式上线

11月4日,昆仑万维旗下AI视频创作平台「SkyReels」正式焕新上线,Web端与移动端APP已全面登陆。模型侧,强势聚合「Google Veo 3.1」、「Sora 2」等全球顶尖AI多模态模型;功能侧,一站式提供图片生成、视频生成、数字人、音乐生成等多种AI创作方式。此次更新主要推出无限画布、数字人口播、模版功能、专家Agent、视频延长和风格化等核心能力,自研「SkyReels V3」模型是业内首个支持单镜头多人多轮对话的数字人模型,推动AI视频创作迈向“零门槛创意生成时代”。

腾讯「ima」正式支持导入、导出「腾讯文档」

11月4日,腾讯「ima」正式支持导入、导出「腾讯文档」 ,助力工作流再提速。在「ima」PC端导入文件(含文档、表格、幻灯片、智能文档和PDF等品类)到知识库时,可以选择「腾讯文档」内容,进行提问和分析;对于「ima」的回答,支持一键导出为「腾讯文档」,进行再次编辑、协作及创作。两款应用打通后一站式完成内容导入、输出全流程,无需在应用间来回切换,效率翻倍提升工作学习体验。

腾讯云CodeBuddy成为国内首个支持「Skills」标准化接口的AI编程工具

11月6日,腾讯云CodeBuddy宣布成为国内首个支持「Skills」标准化接口的AI编程工具。通过该接口,开发者可以为AI添加多样化技能(如智能处理PDF、自动生成PPT、全自动发小红书、全栈自动化开发等),AI从单一指令执行者升级为能独立完成复杂任务的“智能代理”。「Skills」将不同领域专业知识,封装成独立可复用的技能模块,每个技能包是对应技能的SOP,让AI读完就能高效、高质量执行;同时结合MCP协议实现外部工具联动,显著提升开发效率并降低上下文成本。

AI Agent

OpenAI发布了使用「GPT-5」寻找和修复安全漏洞的智能体「Aardvark」

10月31日,OpenAI发布了使用「GPT-5」寻找和修复安全漏洞的智能体「Aardvark」,其工作原理是监控代码库的提交与变更,在识别漏洞的同时分析其潜在利用方式,并自动提供修复建议。具体来说,它的工作流程从Git仓库出发,依次经历:威胁建模→漏洞发现→沙盒验证→Codex 修复→人工复审→提交Pull Request。目前,「Aardvark」还处于beta测试阶段,但在标准代码库的基准测试中,已识别出了92%的已知与人工注入漏洞,而且能定位仅在复杂条件下出现的问题。

阿里云通义千问更新「AgentScope1.0」,增加两款开源Agent

11月5日,阿里云通义千问宣布「AgentScope1.0」更新,增加了两款基于AgentScope构建的开源智能体应用,分别是用于各种实际任务的「Alias-Agent」和用于数据处理的「Dat,a-Juicer Agent」。并扩展其核心能力,低代码适配Trinity-RFT框架进行Agentic RL训练,集成ReMe的长期记忆实现,同时上线「AgentScope-Samples」,构建“开箱即用型”智能体实现和全栈应用的集合。

技术突破

月之暗面推出创新性混合线性注意力架构「Kimi Linear」

10月31日,月之暗面推出创新性混合线性注意力架构「Kimi Linear」,解决当前LLMs在处理长序列任务时面临的计算效率和性能瓶颈。该架构融合三份Kimi Delta Attention(KDA)与一份全局MLA,通过细粒度门控机制压缩记忆状态,在处理百万级token时KV Cache占用减少75%,解码吞吐量最高提升6倍,TPOT指标较传统MLA快6.3倍。

斯坦福大学及其合作团队提出了「AgentFlow」框架

11月3日消息,近期斯坦福大学及其合作团队提出了「AgentFlow」框架,采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略,使得小规模的7B参数模型在搜索、数学等多个推理任务中超越大模型「GPT-4o」(约200B参数),为AI系统的高效推理和持续学习提供了新思路。

Anthropic发布「代码执行」新范式,效率提升98.7%

11月5日,Anthropic发布新的Agent技术博客,详细阐述「代码执行」新范式,建立在模型上下文协议(MCP)之上,让模型编写代码调用工具而非直接调用,将Token消耗从15万降至2000,效率提升98.7%。新范式采用按需加载工具定义、数据本地流转设计,解决了工具定义过载和中间结果消耗两大Agent效率瓶颈。此外还带来“渐进式披露、上下文高效工具、强大控制流、隐私保护和状态持久化”五大核心优势。

市场动态

OpenAI与AWS官宣达成价值380亿美元为期7年的战略合作

11月4日,OpenAI与AWS官宣达成价值380亿美元为期7年的战略合作。OpenAI 将立即并持续获得AWS世界级的基础设施支持,以运行其先进的AI工作负载。AWS将向OpenAI提供配备数十万颗芯片的Amazon EC2 UltraServers(计算服务器),并具备将计算规模扩展至数千万个CPU的能力,以支持其先进的生成式AI任务。

小鹏发布全新一代人形机器人「IRON」

11月5日,小鹏发布全新一代人形机器人「IRON」,身高1.78米,体重70公斤,具备仿生骨骼、肌肉和柔性皮肤结构。它拥有22个自由度的灵巧手和82个全身自由度,能以“猫步”姿态自然行走,搭载3颗图灵AI芯片(2250TOPS算力)和物理世界大模型,支持对话、交互等智能功能。

高德与小鹏达成合作,未来将共同提供「Robotaxi」服务

11月5日,高德宣布与小鹏汽车达成合作,未来将共同面向全球提供「Robotaxi」服务,高德通过「TrafficVLM」模型实现“超视距”能力,可在几公里外感知突发事故并预判拥堵发展,提前推送预警信息。高德地图沉淀了数十万亿级时空样本,还构建了“时空信息建模+视觉感知监测+行业官方信息+用户分享与验证”的多渠道数据融合体系,成为「Robotaxi」行业的“空间智能基础设施”,降低行业创新门槛。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×