找回密码
 立即注册
首页 业界区 业界 大模型榜单周报(2026/01/24)

大模型榜单周报(2026/01/24)

髡芯 2026-1-25 13:10:03
1. 本周概览

本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。
2. 重点关注事件


  • 美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601,该模型拥有5600亿参数,基于创新的MoE架构构建,引入了重思考模式(Heavy Thinking Mode),能够同时启动8路思考并最终总结出更全面、更可靠的结论
  • 智谱于1.20开源30B混合思考模型GLM-4.7-Flash,激活3B参数,提供免费API,性能超越同量级模型,为轻量化部署提供新选择
  • MiniMax于1.20发布Agent 2.0(AI-native Workspace),实现本地云端一体,推出Expert Agents垂直专家系统,具备读文件、写脚本、制作PPT、跑定时任务等功能,定义AI原生工作台概念
  • DeepSeek新模型MODEL1于1.21曝光,代码显示采用全新架构,具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处创新
  • Anthropic于1.22开源全新「AI宪法」(Claude's Constitution),确立了当不同价值观发生冲突时的权衡顺序:「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
  • 谷歌DeepMind于1.22发布D4RT(Dynamic 4D Reconstruction and Tracking),用于跨时空4D场景重建和跟踪,采用统一的编码器-解码器Transformer架构,在各类4D重建任务中均优于此前方法
3. 榜单变化


  • OpenRouter整体模型调用量方面,Claude Opus 4.5调用量大幅下滑35%至395B tokens,排名从第一暴跌至第六;Claude Sonnet 4.5升至榜首但增幅仅11%;免费模型MiMo-V2-Flash持续走强,占比增长18%至582B tokens,排名从第三升至第二;Gemini 2.5 Pro异军突起,调用量暴增300%至413B tokens,首次进入前十即位列第五;Grok 4.1 Fast增长13%至282B tokens;Gemini 2.5 Flash Lite调用量陷入停滞,零增长导致排名从第八跌至第十
  • OpenRouter模型市占率方面,Google模型份额跃升至26.0%,增幅达2.8个百分点,持续扩大领先优势;Anthropic份额大幅下滑4.7个百分点至16.7%,虽仍位居第二但与榜首差距明显拉大;OpenAI份额小幅回升0.6个百分点至13.1%;x-ai份额上升1.3个百分点至12.6%,但因增速不及OpenAI导致排名从第3降至第4;Mistral AI份额下降0.3个百分点至3.5%,被Qwen以0.9个百分点的增幅反超,双方排名发生易位
  • OpenRouter编程调用量方面,Claude Opus 4.5占比断崖式下跌,从20.6%骤降至10.6%,降幅达10个百分点,是两周内变化幅度最大的模型,排名从第2位跌至第3位;Grok Code Fast 1持续扩大领先优势,占比从21.6%小幅攀升至22.8%,增幅1.2个百分点,稳居市场第一;免费模型MiMo-V2-Flash异军突起,占比从2.8%飙升至5.5%,增幅2.7个百分点,排名从第8位跃升至第5位;Claude Sonnet 4.5占比显著增加,从7.7%升至14.1%,增幅6.4个百分点,排名从第4位升至第2位
  • 编程能力榜单(Code Arena):gemini-3-flash (thinking-minimal) 上榜,排名第8,超过GPT-5.2
  • 图像编辑能力榜单(Text to Image Arena):flux-2-flex分数追平nano-banana,二者排名易位
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview上榜,排名第10
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%
4. 排行榜

测评类型第一名第二名第三名模型调用量Claude Sonnet 4.5MiMo-V2-Flash(free)Grok Code Fast 1公司市占率GoogleAnthropicOpenAI编程模型调用量Grok Code Fast 1Claude Sonnet 4.5Claude Opus 4.5各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、ImagineArtGPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、DeepSeek、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIAJoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等关注我,第一时间掌握更多AI前沿资讯!

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册