大模型榜单周报（2026/01/24）

髡芯 · 2026-1-25 13:10:03

1. 本周概览

本周大模型行业动态频发，美团更新了大规模推理模型LongCat-Flash-Thinking-2601，智谱开源轻量化模型GLM-4.7-Flash，MiniMax发布AI原生工作台。在榜单方面，OpenRouter模型调用量出现显著变化，Claude Opus 4.5调用量大幅下滑，而Claude Sonnet 4.5升至榜首，编程领域竞争激烈，各大公司继续在不同能力维度展开激烈角逐。
2. 重点关注事件

美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601，该模型拥有5600亿参数，基于创新的MoE架构构建，引入了重思考模式(Heavy Thinking Mode)，能够同时启动8路思考并最终总结出更全面、更可靠的结论
智谱于1.20开源30B混合思考模型GLM-4.7-Flash，激活3B参数，提供免费API，性能超越同量级模型，为轻量化部署提供新选择
MiniMax于1.20发布Agent 2.0（AI-native Workspace），实现本地云端一体，推出Expert Agents垂直专家系统，具备读文件、写脚本、制作PPT、跑定时任务等功能，定义AI原生工作台概念
DeepSeek新模型MODEL1于1.21曝光，代码显示采用全新架构，具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面，在内存优化上有多处创新
Anthropic于1.22开源全新「AI宪法」（Claude's Constitution），确立了当不同价值观发生冲突时的权衡顺序：「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
谷歌DeepMind于1.22发布D4RT（Dynamic 4D Reconstruction and Tracking），用于跨时空4D场景重建和跟踪，采用统一的编码器-解码器Transformer架构，在各类4D重建任务中均优于此前方法

3. 榜单变化

OpenRouter整体模型调用量方面，Claude Opus 4.5调用量大幅下滑35%至395B tokens，排名从第一暴跌至第六；Claude Sonnet 4.5升至榜首但增幅仅11%；免费模型MiMo-V2-Flash持续走强，占比增长18%至582B tokens，排名从第三升至第二；Gemini 2.5 Pro异军突起，调用量暴增300%至413B tokens，首次进入前十即位列第五；Grok 4.1 Fast增长13%至282B tokens；Gemini 2.5 Flash Lite调用量陷入停滞，零增长导致排名从第八跌至第十
OpenRouter模型市占率方面，Google模型份额跃升至26.0%，增幅达2.8个百分点，持续扩大领先优势；Anthropic份额大幅下滑4.7个百分点至16.7%，虽仍位居第二但与榜首差距明显拉大；OpenAI份额小幅回升0.6个百分点至13.1%；x-ai份额上升1.3个百分点至12.6%，但因增速不及OpenAI导致排名从第3降至第4；Mistral AI份额下降0.3个百分点至3.5%，被Qwen以0.9个百分点的增幅反超，双方排名发生易位
OpenRouter编程调用量方面，Claude Opus 4.5占比断崖式下跌，从20.6%骤降至10.6%，降幅达10个百分点，是两周内变化幅度最大的模型，排名从第2位跌至第3位；Grok Code Fast 1持续扩大领先优势，占比从21.6%小幅攀升至22.8%，增幅1.2个百分点，稳居市场第一；免费模型MiMo-V2-Flash异军突起，占比从2.8%飙升至5.5%，增幅2.7个百分点，排名从第8位跃升至第5位；Claude Sonnet 4.5占比显著增加，从7.7%升至14.1%，增幅6.4个百分点，排名从第4位升至第2位
编程能力榜单（Code Arena）：gemini-3-flash (thinking-minimal) 上榜，排名第8，超过GPT-5.2
图像编辑能力榜单（Text to Image Arena）：flux-2-flex分数追平nano-banana，二者排名易位
文生图能力榜单（Artificial Analysis Text to Image Leaderboard）：ImagineArt 1.5 Preview上榜，排名第10
GAIA榜单：Shawn Agent更新v3.1，排名第7，得分达89.37%

4. 排行榜

测评类型第一名第二名第三名模型调用量Claude Sonnet 4.5MiMo-V2-Flash(free)Grok Code Fast 1公司市占率GoogleAnthropicOpenAI编程模型调用量Grok Code Fast 1Claude Sonnet 4.5Claude Opus 4.5各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、ImagineArtGPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、DeepSeek、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIAJoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等关注我，第一时间掌握更多AI前沿资讯！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

赀倦 · 7 天前

不错，里面软件多更新就更好了

红弘丽 · 7 天前

谢谢分享，试用一下

账号		自动登录	找回密码
密码			立即注册

大模型榜单周报（2026/01/24）

相关帖子

回复

浏览过的版块

签约作者

大模型榜单周报（2026/01/24）

相关帖子

相关推荐

微调 + RAG 组合方案：1+1＞2 的大模型应用技巧

AI语言大模型时代 Cloudera CDP（华为CMP 鲲鹏版）对自有知识的保

爆了！关于2026开年3位程序员接连猝死事件对普通人的启示录一

大模型榜单周报（2026/01/31）

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

PPO 为何成了大模型微调“最后的底牌”？一篇真正能跑通的工程实战指南

Ivanti EPMM RCE CVE-2026-1340/1281完整分析

回复

浏览过的版块

签约作者