本周AI领域动态频出,百度、阿里、DeepSeek推出高效OCR与视觉语言模型,提升文档解析与多模态能力;腾讯、字节跳动分别开源世界模型与3D生成模型,推动3D内容生成;Anthropic、OpenAI、Google升级AI工具,聚焦生命科学、浏览器集成与开发体验;华为鸿蒙6、宇树机器人H2及多项评测基准发布,推动AI向终端与实体场景加速落地,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
百度最新模型「PaddleOCR-VL」登顶HuggingFace Trending
10月17日,百度最新自研的多模态文档解析模型「PaddleOCR-VL」,以0.9B参数量,在全球权威榜单OmniDocBench V1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。该模型融合了NaViT动态分辨率视觉编码器与「ERNIE-4.5-0.3B」语言模型,实现了精度与效率双突破,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109种语言。
灵感实验室团队联合LMMs-Lab提出「LLaVA-OneVision-1.5」
10月17日,灵感实验室团队联合LMMs-Lab提出「LLaVA-OneVision-1.5」,继承并扩展LLaVA 系列,旨在构建开放高效的训练体系,使开发者能低成本复现高性能视觉语言模型。该模型创新采用离线并行数据打包技术,实现11倍数据压缩比,仅用3.7天即完成8500万样本训练。搭载RICE-ViT视觉编码器,支持原生分辨率与区域级细粒度语义建模、强化图表/文档/结构化场景理解,通过“概念均衡”采样策略确保任务泛化能力,8B参数版本在27项基准测试中全面超越「Qwen2.5-VL」。
DeepSeek团队开源新视觉语言模型「DeepSeek-OCR」
10月20日,DeepSeek团队开源了一款视觉语言模型「DeepSeek-OCR」,参数量为3B,是通过光学二维映射技术压缩长文本上下文可行性的初步探索,仅需100个视觉Token即可解码10倍以上文本信息,在OmniDocBench基准测试中超越传统OCR模型。该模型主要由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)两大核心组件构成,支持动态分辨率输入和多语言处理。
阿里通义实验室推出「Qwen3-VL」轻量级双模型
10月22日,阿里通义实验室正式推出「Qwen3-VL」系列新成员,新增2B与32B两个参数规模的密集(Dense)型视觉语言模型,填补从移动端到云端的应用空白。其中,「Qwen3-VL-2B」专为端侧设备优化,在手机、平板等低算力环境中仍保持高效响应,适合本地化部署;而32B版本在长链推理、复杂图像理解方面表现卓越,具备“看图思考”能力,可精准解析图表、文档甚至UI界面内容。
科大讯飞开源星火科技文献大模型「Spark-Scilit-X1-13B」
10月22日,科大讯飞星火科技文献大模型「Spark-Scilit-X1-13B」在GitCode和魔搭社区(ModelScope)上开源,助力科研智能化发展,为科研领域创新提供驱动力。该模型基于讯飞星火X1-0720大模型,在海量高质量科技文献数据上进行训练,采用多阶段训练技术,兼顾科研能力与通用性;并将长思维链深度思考和无思维链快思考进行结合训练,是支持快思考和慢思考的统一模型。
腾讯混元世界模型1.1版本「WorldMirror」正式发布并开源
10月22日,腾讯混元世界模型1.1版本「WorldMirror」正式发布并开源,首次同时支持多模态先验注入和多任务统一输出的端到端3D重建。该模型采用纯前馈架构实现秒级推理,处理8-32视图输入仅需1秒,单卡即可部署,在SimplerEnv、CALVIN等仿真器及真实物理世界任务中性能显著超越现有方法。
百川智能发布了循证增强医疗大模型「Baichuan-M2 Plus」
10月22日,百川智能发布了循证增强医疗大模型「Baichuan-M2 Plus」,同步升级配套应用百小应并开放API。评测显示,该模型的医疗幻觉率较通用大模型显著降低,相比DeepSeek低约3倍,在美、日、英的医疗评测中均超过最火医疗产品OpenEvidence,可信度接近资深临床专家。「Baichuan-M2 Plus」首创六源循证推理(EAR)范式,打造“医生版ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛。
字节跳动Seed团队推出3D生成大模型「Seed3D 1.0」
10月23日,字节跳动Seed团队推出3D生成大模型「Seed3D 1.0」,实现从单张图像到高质量仿真级3D模型的端到端生成。该模型基于创新的Diffusion Transformer架构,通过大规模数据训练完成,可生成包括精细几何、真实纹理和基于物理渲染(PBR)材质的完整3D模型。
AI 工具
生数科技Vidu Q2「参考生」正式发布,APP全新改版
10月21日,生数科技Vidu Q2「参考生」视频再次进化,聚焦于高一致性,速度更快,价格更优惠三大核心,致力于满足专业及半专业创作者日益增长的高想象力内容创作需求。此次升级Vidu首次上线了「视频延长」功能,最长可扩展至5分钟;生成速度更快,实现单任务推理速度相较Vidu Q1「参考生」提升3倍。此外,Vidu APP全新改版上线,用户只需把专业繁琐的提示词变为@主体 +一句话描述,即可生成视频素材,还有海量主体库可供选择,人人都可二次创作。
Anthropic上线Claude生命科学版「Claude for Life Sciences」
10月21日,Anthropic上线Claude生命科学版「Claude for Life Sciences」,并推出一系列改进措施,旨在推动人工智能在生物技术领域的应用。该系统基于「Claude Sonnet 4.5」模型,集成了多种生命科学研究工具,如Benchling、PubMed和BioRender,支持高效的科研流程。其新功能Claude Skills可将科学流程转化为AI自动化工作流,提升数据处理效率。此外,Anthropic发布了覆盖多种科研场景的提示库,并与多家制药公司合作,显著缩短临床文档编制时间。
OpenAI发布AI浏览器「ChatGPT Atlas」
10月22日,OpenAI发布AI浏览器「ChatGPT Atlas」,基于Chromium内核,目前仅推出macOS版,对所有用户免费开放,后续将推出Windows及移动端版本。「ChatGPT Atlas」核心功能是将ChatGPT深度集成到浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆(Browser memories)功能和智能体模式(Agent Mode),可执行订票、购物等复杂任务。此外,OpenAI强调安全措施包括禁止运行代码、访问敏感网站时暂停确认等,但承认智能体仍存在被恶意指令误导的风险。
Anthropic正式发布了「Claude Desktop」,随时随地召唤Claude
10月22日,Anthropic正式发布了桌面版「Claude Desktop」(之前是预览版),主打“随时随地召唤Claude”,同时支持Mac和Windows系统。该桌面版提供全局快捷键(Mac双击Option随时唤醒)、窗口分享、语音输入(按Caps Lock说话)和连接工具(代码编辑器、本地文件和数据库)四大核心功能。与OpenAI的「Atlas」浏览器不同,「Claude Desktop」是常规桌面助手而非具备Agent Mode的浏览器,但操作顺手且实用性强。
Google推出AI Studio全新「Vibe Coding」功能与AI学习平台「Google Skills」
10月22日,Google全面升级AI Studio平台,推出了全新的「Vibe Coding」功能,可以一键生成AI应用。新界面集成模块化“超级能力”组件,用户只需点击即可添加媒体编辑、深度推理、加速响应等功能。平台新增应用程序库,未来或将开放社区共享机制。秘密变量支持保障敏感信息存储安全,一键部署直达Google Cloud运行环境,生成实时访问链接。此外,Google还推出了AI学习平台「Google Skills」,有超过3000门课程,整合了Google Cloud、DeepMind、Google for Education等资源,涵盖AI技术与伦理等内容,帮助人们提高AI技能。
快手StreamLake正式推出「工具+模型+平台」三位一体AI编程产品矩阵
10月23日,快手StreamLake正式推出「工具+模型+平台」三位一体AI编程产品矩阵,包括智能开发工具「CodeFlicker」、高性能自研模型「KAT-Coder」以及大模型平台快手万擎「Vanchin」,致力于为企业和开发者构建一个闭环、高效、普惠的AI编程新生态。其中「KAT-Coder-Air V1」版本将面向所有用户免费使用。
技术突破
美团LongCat团队发布了「VitaBench」评测基准
10月20日,美团LongCat团队发布了「VitaBench」评测基准,针对大模型智能体在真实生活场景中的复杂任务能力进行系统评估。该基准以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。该基准首次从推理、工具调用与用户交互三大维度量化任务复杂度;实验显示,当前领先模型在跨场景主榜任务中成功率仅30%,暴露智能体应对真实场景的短板。
华为发布「HarmonyOS 6」系统,支持与Mac、iPhone互传互联
10月22日,华为发布了最新的「HarmonyOS 6」系统,支持与Mac、iPhone互传互联,系统速度进一步提升,相较于「HarmonyOS 5」流畅度提升15%,续航也提升35-51分钟;应用启动速度提升11%,页面加载提升21%,内容加载提升30%,并且提供更细腻的过场动画。同时,小艺助手升级为系统级AI智能体(Agent),支持语音触发多条件任务自动执行(如网购、订票)、AI一键成片、方言自由对话(支持16种方言)、录音转写摘要、备忘录速记等,实现能听、能答、会思考,首发拥有80多个应用智能体。
Google全新的量子回声「Quantum Echoes 」算法首次可验证
当地时间10月22日,Google在《Nature》杂志披露其全新的量子回声「Quantum Echoes 」算法在Willow芯片上运行,解决原子相互作用问题的速度比最好的传统超级计算机快13000倍,在数小时内完成了需要Frontier超级计算机大约3.2年才能完成的计算。这是历史上首次证明量子计算机可在硬件上成功运行一项可验证算法,这一研究成果被视为推动量子计算机走向应用的又一个里程碑。
LangChain团队正式发布「LangChain 1.0」与「LangGraph 1.0」
10月23日,LangChain团队正式发布「LangChain 1.0」与「LangGraph 1.0」,这是这两大框架的首个主要版本,标志着AI Agent开发正式进入“工程化”阶段。同步上线的,还有全新设计的文档站点,首次将Python与JavaScript文档完全整合。
市场动态
微软宣布OpenAI的视频生成模型「Sora 2」上线Azure AI Foundry国际版
10月17日,微软正式宣布OpenAI的视频生成模型「Sora 2」已在Azure AI Foundry国际版上线,并开放API接口。「Sora 2」支持文本、图像、视频等多种输入方式,可直接生成高质量视频内容,适用于广告制作、教育素材、社交媒体内容生产等多个领域,极大简化传统拍摄与剪辑流程。定价方面采取按秒收费模式,每秒0.1美元。
宇树科技发布「H2」仿生人形机器人,高180cm,重70kg
10月20日,宇树科技发布「H2」仿生人形机器人,高180cm,重70kg。和前代相比,「H2」无论是在运动流畅性、还是仿生特征上,都有了相当大的升级。首先重量上,「H2」的重量从「H1」的41kg突破到了70kg,更趋近正常水平;其次关节总数累计达到了31个,对比7月份发布的「R1」关节26个提升约19%;最后赋予了「H2」“人脸”,更接近人类。70kg的重量没有让「H2」变得更笨重,反而在完成各类动作上更加流畅,移动能力以及关节控制都更像人类的行动,能优雅流畅的表演芭蕾舞蹈和中国武术。