MIAOYUN | 每周AI新鲜事儿 260123

本周AI行业迎来密集爆发,大模型开源与技术突破并行,百度文心登顶国际榜单,智谱、美团、阶跃星辰等也纷纷发布或开源高性能新模型;AI工具聚焦场景落地,OpenAI与Google掀起翻译工具对决,腾讯混元3D、蚂蚁百灵Ling Studio、阿里呜哩、飞书AI录音豆等深耕垂直场景,实用型显著增强;Agent发展进入新阶段,字节扣子2.0、MiniMax Agent 2.0等升级专业化能力;市场层面基础设施与生态开放成为关键变量,马斯克开放𝕏平台推荐算法并投用GW级超算集群,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

百度文心大模型「ERNIE-5.0-0110」登LMArena文本榜国内第一、全球第八

1月15日,百度正式上线的新一代文心大模型「ERNIE-5.0-0110」,在LMArena大模型竞技场以1460分位列文本榜国内第一、全球第八,是该榜单中唯一进入全球前十的中国大模型,数学能力排名全球第二。该模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像等多种信息的输入与输出,此前Preview版本已拿下LMArena文本榜全球并列第二、国内第一及视觉理解榜国内第一的成绩。

美团LongCat团队开源升级版模型「LongCat-Flash-Thinking-2601」

1月16日,美团LongCat团队发布并开源升级版模型「LongCat-Flash-Thinking-2601」,引入「重思考模式」,在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准均达开源SOTA(AIME-25获满分、τ²-Bench 88.2分),泛化能力超越Claude,依托多环境强化学习(DORA基础设施)与噪声环境稳健训练实现技术突破,目前已在GitHub、Hugging Face等平台开源,支持官网在线体验与API免费调用。

Black Forest Labs开源「FLUX.2」[klein]图像生成模型家族

1月17日消息,Black Forest Labs开源「FLUX.2」[klein]图像模型家族,包含4B和9B两个版本(各含未蒸馏的基础版与4步蒸馏版),采用流模型+Qwen3文本编码器架构,统一文生图、图像编辑及多参考生成功能,实现最快0.5秒亚秒级推理,4B版(Apache 2.0许可证支持商用)仅需13GB显存适配消费级GPU,9B版(非商用许可证)性能比肩5倍参数量模型,同步提供FP8/NVFP4量化版本(分别提速1.6倍/2.7倍、显存降低40%/55%),附带推理脚本,兼顾实时应用、微调研究与边缘部署需求。

智谱正式发布并开源混合思考模型「GLM-4.7-Flash」

1月20日,智谱正式发布并开源混合思考模型「GLM-4.7-Flash」,总参数量30B、激活参数量3B,作为同级别SOTA模型兼顾性能与效率,在SWE-bench Verified等主流基准测试中表现超「GPT-OSS-20B」等模型,适配编程、中文写作等多场景,即日起在智谱开放平台上线并免费调用,将替代「GLM-4.5-Flash」(后者1月30日下线),同时可通过Hugging Face、魔搭社区进行开源部署。

阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」

1月20日,阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」,凭借全参数端到端多模态联合预训练、大规模RL迭代及PaCoRe并行协调推理机制,在视觉感知、逻辑推理、数学竞赛等多维度达到同规模SOTA水平,媲美甚至超越10-20倍参数量的开源与闭源旗舰模型,可下沉至端侧设备运行,目前Base和Thinking版本已通过多个平台开源。

Liquid AI开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」

1月21日,由MIT CSAIL孵化的初创公司Liquid AI发布并开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」,该模型基于液态神经网络打造,仅需900MB内存即可在手机等设备离线运行,不仅推理速度和质量在同规模模型中领先,参数量比「Qwen3-1.7B」少约40%,却在数学推理、指令遵循、工具使用等核心能力上表现相当或更优,还通过Midtraining、SFT、DPO、RLVR等训练策略将死循环生成比例从15.74%降至0.36%,兼容llama.cpp、MLX等主流推理框架及多品牌硬件,证明Transformer并非唯一解。

中佛罗里达大学发布首个“纯文本提示”医学全能分割模型「Medical SAM3」

1月21日消息,中佛罗里达大学等机构联合发布了首个真正“纯文本提示”驱动的医学全能分割模型「Medical SAM3」,采用全参数微调结合分层学习率衰减策略,依托覆盖10种成像模态、33个数据集的大规模训练底座及统一2D高分辨率视角设计,摆脱了传统医学分割模型对人工边界框等空间提示的依赖,仅凭文本指令即可在CT、MRI、内镜等多模态医学影像中实现专家级分割,内部验证平均Dice从54.0%提升至77.0%,外部零样本场景从11.9%暴涨至73.9%,大幅降低临床交互成本,未来将扩充数据并打造集成LLM的Agent。

百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」

1月22日,百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」,其融合独创六源循证技术与M3基座,将幻觉率降至2.6%达全球最低,首创“证据锚定”技术使医学结论可逐句溯源(匹配准确率超95%),API调用成本较上一代降低70%且限时15天免费体验,同时发起“海纳百川”计划,向中国医疗服务机构免费开放API,用于临床辅助决策与医学教育,推动AI医疗生态发展。

Runway发布全新图生视频模型「Gen 4.5」

1月22日,Runway发布全新图生视频模型「Gen 4.5」,该模型在长故事表达、精准镜头控制、连贯叙事及角色一致性上实现升级,生成视频细节逼真,在1000人盲测中仅57.1%的人能区分其与真实视频。当前视频模型行业呈现真实度与物理一致性增强、声画同步提升等趋势,正逐步接近商业化应用。

AI 工具

AI翻译对决,OpenAI上线「ChatGPT Translate」,Google开源「TranslateGemma」

1月16日消息,OpenAI近期低调上线独立翻译工具「ChatGPT Translate」,支持超50种语言,无需登录即可免费使用,核心亮点是具备译文语气调整等二次加工能力,但暂不支持文档、图片翻译及离线使用。对此Google则高调回应,发布基于Gemma 3的开源翻译模型「TranslateGemma」,提供4B、12B、27B三种参数版本,支持55种语言及多模态输入,12B模型性能超越27B基线模型,4B模型适配移动端/边缘设备,通过双阶段微调流程蒸馏Gemini模型知识,双方竞争推动AI翻译从单纯语言转换向智能适应方向演进。

腾讯「混元3D Studio 1.2」发布公测,组件能力升级至PartGen 1.5

1月16日,腾讯「混元3D Studio 1.2」全新发布并开放公测(无需申请),组件能力升级至PartGen 1.5(拆分精度从1024³提升至1536³分辨率,支持笔刷交互与分割掩码控制,保留高精细节、拆分更完整),基模同步升级为「混元3D 3.1」(几何细节与纹理还原度优化,适配更多风格),新增八视图输入(含顶、底及左右45度视角)提升专业可控性,用户可通过官方链接体验。

蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」

1月16日,蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」,用户可体验Ling-1T(高速响应)、Ring-1T(复杂推理)、Ming-flash-omni-Preview(多模态识别)等百灵大模型,平台支持调参、系统提示词配置、联网搜索等原生工具调用及API即接即用功能,每日发放50万个免费Tokens,文件对话、图片生成等更多功能即将上线。

阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」

1月19日,阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」(目前处于测试阶段),该平台集成通义Qwen Image系列、万相2.6等自研模型,以及字节Seedream 4.0/4.5、可灵相关第三方模型,支持文生图、图生图、参考生图、文生视频、图生视频等全功能,生图最高可达4K、生视频最高1080p且支持音画同步,生成速度快(图片几秒、视频1-2分钟),参考生图功能可灵活改图,目前所有功能免费无次数限制,手机号登录即可使用,正式上线后可能收费。

飞书与安克创新联合推出仅重10g的「AI录音豆」,录音整理全自动化

1月20日,飞书与安克创新联合推出「AI录音豆」,这款直径23.2毫米、重10g的微型硬件支持磁吸佩戴,续航达8小时,一键即可录音,录音内容可无缝联动飞书生态,自动生成逐字稿、多语言翻译、会议总结、待办事项等,还能通过飞书知识问答、定时任务、日报周报生成等功能二次加工,解决了手机录音续航、操作繁琐等痛点,将线下录音转化为可协作复用的数字资产,优化了线下会议等场景的录音与内容整理体验。

红杉中国xbench发布「AgentIF-OneDay」评测体系

1月21日,红杉中国xbench发布「AgentIF-OneDay」评测体系,聚焦评估Agent在长时复杂任务中的能力,以人类一天可完成的任务复杂度为基准,涵盖工作流执行、范例参考、迭代式编辑三类场景,包含104道任务及767个细粒度评分点,评测显示Manus、Genspark、ChatGPT-Agent构成第一梯队且各有场景侧重,当前Agent在隐式指令推断等方面仍存短板,未来将推进OneWeek评测,同时持续学习与数据飞轮被认为是Agent向高可靠“数字员工”演进的关键。

AI Agent

超参数科技发布LLM驱动的Game Agent「COTA」,推理链路全程可见

1月16日,超参数科技发布自研Game Agent「COTA」,这是首个以LLM(基座模型Qwen3-VL-8B-Thinking)为核心驱动、具备思维可解释性的游戏智能体,通过“双系统分层架构”(上层指挥官负责战略规划、下层行动专员执行微操)及SFT+GRPO+DPO训练流程,攻克实时响应难题(百毫秒级),在自研FPS游戏环境中展现出接近真人高分玩家的竞技水平,可完成单兵作战与团队战术配合,既降低高拟真NPC开发调试门槛,又能优化玩家体验,其底层技术还具备跨场景迁移潜力,目前已开启官网预约体验。

字节跳动「扣子空间」正式升级为「扣子2.0」,四大Agent能力升级

1月19日,字节跳动拥有千万用户的「扣子空间」升级为「扣子2.0」,核心新增Agent Skills(封装场景最佳实践与工具,支持通过技能商店创建、获取行业专属技能)、Agent Plan(设定长期目标后自动规划执行并主动汇报)、Agent Office(深度理解职场场景,提供针对性洞察与文档处理能力)、Agent Coding(一站式云端开发平台,支持一键部署)四大能力,还上线了音画同步的官方视频创作Skill,定位职场人靠谱伙伴,助力高效完成简历筛选、文案创作、数据报表等各类工作任务。

阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」

1月19日,阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」,同时带来重要升级,该终端Agent定位“会做事、总在场、有记忆、能进化”,此前已发布Mac版(支持日程分析、当前窗口识别等专属功能),现支持调用16款第三方工具且可自行添加,具备本地存储的全局记忆(自动整理电脑活动轨迹并生成复盘报告),用户可通过官网下载。

昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」

1月19日,昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」,聚焦海报设计、社媒物料、LOGO与品牌视觉、通用创意生图四大核心场景,通过场景化指引、多启动方式(文生图/以图生图等)、自研画布引擎实现全流程设计,具备AI修图(拆分图层、扩图等)、素材知识库存档、多格式导出等功能,零门槛操作且效果可控,重塑办公视觉创作效率,后续将持续迭代专业功能并拓展AI多媒体创作能力。

MiniMax发布第二代智能体「MiniMax Agent 2.0」,定位“AI原生工作台"

1月20日,MiniMax稀宇科技发布第二代智能体「MiniMax Agent 2.0」,以“AI原生工作台”为核心定位,搭载桌面端应用(双系统适配,打通本地云端无缝衔接)与Expert Agents(定制化专家分身),可高效完成新闻摘要、论文解读、PPT制作等复杂任务,依托Lightning Attention等技术升级及内部迭代闭环,颠覆交互逻辑、打破专业壁垒,重塑AI高复杂度工作价值。

Anthropic被曝升级Claude Cowork,新增「知识库」功能实现“永久记忆”

1月20日消息,Anthropic被曝正在为Claude Cowork进行重大更新,通过新增「知识库」(Knowledge Bases)功能实现“永久记忆”,支持多对话、多任务间持续调用过往关键信息并动态更新,界面简化后新增Artifacts版块管理复用过往作品,同时扩展MCP连接器提升自动化能力,同步优化Web语音模式、Pixelate等轻量化功能,推动其从聊天助手向全面生产力助手演进,而开发者社区也通过Smart Forking等探索印证AI长期记忆的应用价值。

市场动态

Roboparty全栈开源双足人形机器人「萝博头原型机」

1月15日,Roboparty全栈开源双足人形机器人「萝博头原型机」,该原型机身高1.25m、重30kg,跑步速度达3m/s,同步开放硬件结构图、EBOM清单、AMP运控算法及避坑知识库,实现“可复现、可二开、可验证”,其搭载的拟人步态算法适配BFM框架,硬件采用类车规级结构,已获小米战投、商汤等机构千万美元种子轮融资,同时推出开发者共创计划。

马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行

1月17日,马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行,其搭载55.5万张GPU,4月将升级至1.5GW、最终达2GW,专为Grok模型训练服务(Grok 5参数预计6万亿),该集群从建设到上线仅用不到一年(前一代Colossus 1耗时122天);而美国PJM电网因数据中心电力需求激增(未来10年年均增长4.8%),计划在极端天气对13州6700万居民轮流停电,不过「Colossus 2」不在该电网覆盖范围,且xAI部署了特斯拉Megapack储能系统以减少本地电网冲击。

马斯克宣布开源「𝕏平台」推荐算法,每周四迭代一次

1月20日,马斯克宣布开源「𝕏平台」(原Twitter)推荐算法代码,使其成为首个核心流量分发逻辑全透明化的主流社交平台,新版算法采用xAI Grok模型的Transformer架构,以“零人工特征工程”为核心,通过内部“Thunder”和外部“Phoenix Retrieval”召回内容,经Phoenix评分器加权计算得分,评分前后设过滤机制并保障作者多样性,未来将每四周更新开源版本并附开发者说明,这一透明化举措是其他社交平台未做到的。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×