登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
大模型榜单周报(2025/12/08—2025/12/12)
大模型榜单周报(2025/12/08—2025/12/12)
[ 复制链接 ]
赐度虻
昨天 19:50
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
1. 周重要变化
以下为OpenRouter模型调用量排名变动
整体调用量:
Grok Code Fast 1
登顶
Grok 4.1 Fast
跌出前10
Claude Opus 4.5
从第6升至第4
GPT-OSS-120B
、
Gemini 2.5 Flash Lite
重回前10(第5、第7)
MiniMax M2
掉出前10
市占率:
Google
以
23.5%
重回第一(+4%)
xAI
份额暴跌至
17.3%
(-16.6%,两周累计降幅超20%)
Anthropic、OpenAI、DeepSeek 紧随其后
编程调用量:
前二名不变:
Grok Code Fast 1
、
Claude Sonnet 4.5
GPT-OSS-120B
从第9跃升至第3
MiniMax M2
降至第5
Devstral 2 2512
新晋第9
各类能力榜单更新
榜单表现亮点
大语言模型(Text Arena)
ernie-5.0-preview-1103 新晋第19名(预发布评分)
编程能力(LMArena)
gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布)
代码工程(SWE-bench BashOnly)
GPT-5.2 (high reasoning) 第3,GPT-5.2 第5
图像编辑(Artificial Analysis Image Editing Leaderboard)
Seedream 4.5 第2,P-Image-Edit 第7
文生图(Artificial Analysis Text to Image Leaderboard)
Seedream 4.5 第5,Z-lmageTurbo 第10
理科能力(LLM Stats GPQA)
GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2
前沿数学(EPOCH AI FrontierMath)
GPT-5.2 以40.3%正确率登顶(首次突破40%)
GAIA 榜单
Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4
2. 周各榜单排名情况
OpenRouter 相关排名
调用量前三
:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
公司市占率前三
:Google、xAI、Anthropic
编程调用量前三
:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B
按公司划分的多维榜单表现
榜单领先公司/机构
Text Arena(大语言模型)
Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek
LMArena(编程)
Anthropic、OpenAI、Google、智谱
LiveCodeBench(编程)
Anthropic、Google、OpenAI、阿里、月之暗面
SWE-benchLite(代码工程)
基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先
Image Edit Arena(图像编辑/生成)
Google、字节、Reve、Black Forest Labs
Text-to-Image Arena(文生图)
Google、Black Forest Labs、腾讯、字节
Image Editing Leaderboard
Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里
Text to Image Leaderboard
Google、Black Forest Labs、字节、ImagineArt、阿里
GPQA(理科)
OpenAI、Google、xAI、Anthropic、阿里
FrontierMath(前沿数学)
OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam
Google、OpenAI、Anthropic
GAIA 榜单代表性智能体系统(基于基础模型开发)
Suzhou AI Lab & Shuqian Tech
(Gemini 3、Claude Sonnet 4.5、GPT5.1)
Lenovo LR AILab
(GPT5、o3、Gemini-3-pro)
NVIDIA
(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
ZTE-AICloud
(ZTE NebulaLLM + Claude/Gemini)
JoinAI
(JoinLLM + GPT4.1/DeepSeek/Gemini)
其他
:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)
3. 周重点关注事件
OpenAI 发布 GPT-5.2 系列
包含
Instant、Thinking、Pro
三个版本
在
GDPval 评测
中超越44个职业的人类专家水平
在
GPQA、FrontierMath、SWE-bench
等多项基准刷新纪录
Google 推出 Gemini Deep Research 智能体
开源
DeepSearchQA 基准
,用于评估网络研究能力
在
HLE、DeepSearchQA、BrowseComp
测试中取得 SOTA 结果
Mistral AI 开源 Devstral 2 代码模型系列
包括
Devstral 2 (123B)
和
Devstral Small 2 (24B)
在
SWE-bench Verified
上达
72.2%
成本效率比
Claude Sonnet 高达7倍
关注我,获取更多AI前沿洞察
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
2025
大模型
榜单
周报
相关帖子
2025 年度西安网站制作公司推荐:定制开发与设计一站式服务机构口碑精选
.NET周刊【11月第3期 2025-11-16】
【有手就行】LoRA:用你自己的数据来微调大模型,让大模型真正懂你
2025年中国角接触球轴承厂家推荐榜——五大口碑与实力兼备的角接触球轴承品牌
.NET周刊【11月第4期 2025-11-23】
Perforce QAC 2025.3 新版上线 | 速度与深度双升级
纯前端调用大模型真的安全吗?我踩过的坑比示例代码多得多
UniEdit:首个大型开放域大模型知识编辑基准
.NET周刊【11月第5期 2025-11-30】
.NET周刊【11月第5期 2025-11-30】
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
2025 年度西安网站制作公司推荐:定制开发与设计一站式服务机构口碑精选
0
947
峰邑
2025-12-12
业界
.NET周刊【11月第3期 2025-11-16】
0
438
簧横
2025-12-14
业界
【有手就行】LoRA:用你自己的数据来微调大模型,让大模型真正懂你
0
941
晖顶蝇
2025-12-14
安全
2025年中国角接触球轴承厂家推荐榜——五大口碑与实力兼备的角接触球轴承品牌
0
206
柯惠心
2025-12-15
业界
.NET周刊【11月第4期 2025-11-23】
0
145
浅皮懔
2025-12-15
安全
Perforce QAC 2025.3 新版上线 | 速度与深度双升级
0
165
艾晓梅
2025-12-16
安全
纯前端调用大模型真的安全吗?我踩过的坑比示例代码多得多
0
951
静轾
2025-12-16
业界
UniEdit:首个大型开放域大模型知识编辑基准
0
984
焦和玉
2025-12-16
业界
.NET周刊【11月第5期 2025-11-30】
0
359
背竽
2025-12-16
业界
.NET周刊【11月第5期 2025-11-30】
0
988
闻成
2025-12-16
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
赐度虻
昨天 19:50
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
362
Avalonia源码解读:Grid(网格控件)
236
研究 TikTok 爆款的人,一定要懂这类下载工
956
Java Optional 完全指南:优雅处理 null 的
23
全面封禁 Cursor!又一家大厂出手了
877
记一次MySQL binlog日志导致磁盘空间占满的
776
记一次MySQL binlog日志导致磁盘空间占满的
876
小白也能看懂的RLHF-PPO:原理篇
301
小白也能看懂的RLHF-PPO:原理篇
277
2026年主流原型设计工具:Axure、墨刀功能
67
邮箱怎么群发邮件给多个人
588
27个行业创新实践一次看|HarmonyOS SDK案
143
秋的启迪
781
秋的启迪
499
不止编程!Claude Code 跨界应用指南:5 大
21
VictoriaMetrics 尝鲜
965
高频OTA时代,如何用SIL测试兼顾软件可靠性
868
ROS2概念之分布式通信
707
通过.ovf和.vmdk导入VMware虚拟机
620
酷狗音乐api接口抓取 | 音乐管理系统
652
吴恩达深度学习课程四:计算机视觉 第二周