登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
大模型榜单周报(2025/12/08—2025/12/12)
大模型榜单周报(2025/12/08—2025/12/12)
[ 复制链接 ]
赐度虻
2 小时前
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
1. 周重要变化
以下为OpenRouter模型调用量排名变动
整体调用量:
Grok Code Fast 1
登顶
Grok 4.1 Fast
跌出前10
Claude Opus 4.5
从第6升至第4
GPT-OSS-120B
、
Gemini 2.5 Flash Lite
重回前10(第5、第7)
MiniMax M2
掉出前10
市占率:
Google
以
23.5%
重回第一(+4%)
xAI
份额暴跌至
17.3%
(-16.6%,两周累计降幅超20%)
Anthropic、OpenAI、DeepSeek 紧随其后
编程调用量:
前二名不变:
Grok Code Fast 1
、
Claude Sonnet 4.5
GPT-OSS-120B
从第9跃升至第3
MiniMax M2
降至第5
Devstral 2 2512
新晋第9
各类能力榜单更新
榜单表现亮点
大语言模型(Text Arena)
ernie-5.0-preview-1103 新晋第19名(预发布评分)
编程能力(LMArena)
gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布)
代码工程(SWE-bench BashOnly)
GPT-5.2 (high reasoning) 第3,GPT-5.2 第5
图像编辑(Artificial Analysis Image Editing Leaderboard)
Seedream 4.5 第2,P-Image-Edit 第7
文生图(Artificial Analysis Text to Image Leaderboard)
Seedream 4.5 第5,Z-lmageTurbo 第10
理科能力(LLM Stats GPQA)
GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2
前沿数学(EPOCH AI FrontierMath)
GPT-5.2 以40.3%正确率登顶(首次突破40%)
GAIA 榜单
Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4
2. 周各榜单排名情况
OpenRouter 相关排名
调用量前三
:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
公司市占率前三
:Google、xAI、Anthropic
编程调用量前三
:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B
按公司划分的多维榜单表现
榜单领先公司/机构
Text Arena(大语言模型)
Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek
LMArena(编程)
Anthropic、OpenAI、Google、智谱
LiveCodeBench(编程)
Anthropic、Google、OpenAI、阿里、月之暗面
SWE-benchLite(代码工程)
基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先
Image Edit Arena(图像编辑/生成)
Google、字节、Reve、Black Forest Labs
Text-to-Image Arena(文生图)
Google、Black Forest Labs、腾讯、字节
Image Editing Leaderboard
Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里
Text to Image Leaderboard
Google、Black Forest Labs、字节、ImagineArt、阿里
GPQA(理科)
OpenAI、Google、xAI、Anthropic、阿里
FrontierMath(前沿数学)
OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam
Google、OpenAI、Anthropic
GAIA 榜单代表性智能体系统(基于基础模型开发)
Suzhou AI Lab & Shuqian Tech
(Gemini 3、Claude Sonnet 4.5、GPT5.1)
Lenovo LR AILab
(GPT5、o3、Gemini-3-pro)
NVIDIA
(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
ZTE-AICloud
(ZTE NebulaLLM + Claude/Gemini)
JoinAI
(JoinLLM + GPT4.1/DeepSeek/Gemini)
其他
:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)
3. 周重点关注事件
OpenAI 发布 GPT-5.2 系列
包含
Instant、Thinking、Pro
三个版本
在
GDPval 评测
中超越44个职业的人类专家水平
在
GPQA、FrontierMath、SWE-bench
等多项基准刷新纪录
Google 推出 Gemini Deep Research 智能体
开源
DeepSearchQA 基准
,用于评估网络研究能力
在
HLE、DeepSearchQA、BrowseComp
测试中取得 SOTA 结果
Mistral AI 开源 Devstral 2 代码模型系列
包括
Devstral 2 (123B)
和
Devstral Small 2 (24B)
在
SWE-bench Verified
上达
72.2%
成本效率比
Claude Sonnet 高达7倍
关注我,获取更多AI前沿洞察
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
2025
大模型
榜单
周报
相关帖子
B4375 [蓝桥杯青少年组省赛 2025] 庆典队列&&B4376
2025杭电多校第八场 最有节目效果的
2025 年度西安网站制作公司推荐:定制开发与设计一站式服务机构口碑精选
.NET周刊【11月第3期 2025-11-16】
【有手就行】LoRA:用你自己的数据来微调大模型,让大模型真正懂你
2025年中国角接触球轴承厂家推荐榜——五大口碑与实力兼备的角接触球轴承品牌
.NET周刊【11月第4期 2025-11-23】
Perforce QAC 2025.3 新版上线 | 速度与深度双升级
纯前端调用大模型真的安全吗?我踩过的坑比示例代码多得多
UniEdit:首个大型开放域大模型知识编辑基准
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
代码
B4375 [蓝桥杯青少年组省赛 2025] 庆典队列&&B4376
1
401
米榜饴
2025-12-11
业界
2025杭电多校第八场 最有节目效果的
1
738
箝德孜
2025-12-12
安全
2025 年度西安网站制作公司推荐:定制开发与设计一站式服务机构口碑精选
0
946
峰邑
2025-12-12
业界
.NET周刊【11月第3期 2025-11-16】
0
435
簧横
2025-12-14
业界
【有手就行】LoRA:用你自己的数据来微调大模型,让大模型真正懂你
0
938
晖顶蝇
2025-12-14
安全
2025年中国角接触球轴承厂家推荐榜——五大口碑与实力兼备的角接触球轴承品牌
0
204
柯惠心
2025-12-15
业界
.NET周刊【11月第4期 2025-11-23】
0
143
浅皮懔
2025-12-15
安全
Perforce QAC 2025.3 新版上线 | 速度与深度双升级
0
163
艾晓梅
2025-12-16
安全
纯前端调用大模型真的安全吗?我踩过的坑比示例代码多得多
0
949
静轾
2025-12-16
业界
UniEdit:首个大型开放域大模型知识编辑基准
0
982
焦和玉
2025-12-16
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
赐度虻
2 小时前
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
736
Prompt 工程
497
Prompt 工程
757
Gemini 3.0 Pro 迁移避坑指南:OpenAI API
20
是猫踩键盘还是乱码?不,这是你刚写的正则
248
RSA加密
317
pydash原型链污染
177
大模型榜单周报(2025/12/08—2025/12/12)
849
当你不再迷信“最强模型”,系统设计才刚刚
876
软件i2c
301
2025年专业起名老师联系方式汇总:全国资深
654
解码IP协议号:网络世界的“货物运单”
712
Python Selenium 漫步指南:从入门到精通
646
AI 付费模式终极对比:ChatGPT、Gemini、Cl
840
JSAPIThree 加载 3D Tiles 学习笔记:大规
360
LLM 工具调用的范式演进与认知模型集成
358
Requirements Engineering with AI for Con
344
【节点】[Adjustment-WhiteBalance节点]原
305
上海专业建筑维修服务解析:标准化流程如何
950
【分析式AI】-带你弄懂XGBoost模型
733
【分析式AI】-带你弄懂XGBoost模型