大模型榜单周报（2025/12/08—2025/12/12）

赐度虻 · 2 小时前

上周大模型生态竞争激烈，GPT-5.2全面领先多项基准测试，Google凭借Gemini系列重夺市占率第一，xAI份额大幅下滑，同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
1. 周重要变化

以下为OpenRouter模型调用量排名变动
整体调用量：

Grok Code Fast 1 登顶
Grok 4.1 Fast 跌出前10
Claude Opus 4.5 从第6升至第4
GPT-OSS-120B、Gemini 2.5 Flash Lite 重回前10（第5、第7）
MiniMax M2 掉出前10

市占率：

Google 以 23.5% 重回第一（+4%）
xAI 份额暴跌至 17.3%（-16.6%，两周累计降幅超20%）
Anthropic、OpenAI、DeepSeek 紧随其后

编程调用量：

前二名不变：Grok Code Fast 1、Claude Sonnet 4.5
GPT-OSS-120B 从第9跃升至第3
MiniMax M2 降至第5
Devstral 2 2512 新晋第9

各类能力榜单更新

榜单表现亮点大语言模型（Text Arena）ernie-5.0-preview-1103 新晋第19名（预发布评分）编程能力（LMArena）gpt-5.2-high、gpt-5.2 新晋第2、第6名（预发布）代码工程（SWE-bench BashOnly）GPT-5.2 (high reasoning) 第3，GPT-5.2 第5图像编辑（Artificial Analysis Image Editing Leaderboard）Seedream 4.5 第2，P-Image-Edit 第7文生图（Artificial Analysis Text to Image Leaderboard）Seedream 4.5 第5，Z-lmageTurbo 第10理科能力（LLM Stats GPQA）GPT-5.2 Pro（93.2%）第1，GPT-5.2（92.4%）第2前沿数学（EPOCH AI FrontierMath）GPT-5.2 以40.3%正确率登顶（首次突破40%）GAIA 榜单Su Zero + SQ Pro 登顶，Su Zero + Shuqian Lite 第42. 周各榜单排名情况

OpenRouter 相关排名

调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
公司市占率前三：Google、xAI、Anthropic
编程调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B

按公司划分的多维榜单表现

榜单领先公司/机构Text Arena（大语言模型）Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeekLMArena（编程）Anthropic、OpenAI、Google、智谱LiveCodeBench（编程）Anthropic、Google、OpenAI、阿里、月之暗面SWE-benchLite（代码工程）基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先Image Edit Arena（图像编辑/生成）Google、字节、Reve、Black Forest LabsText-to-Image Arena（文生图）Google、Black Forest Labs、腾讯、字节Image Editing LeaderboardGoogle、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里Text to Image LeaderboardGoogle、Black Forest Labs、字节、ImagineArt、阿里GPQA（理科）OpenAI、Google、xAI、Anthropic、阿里FrontierMath（前沿数学）OpenAI、Google、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIA 榜单代表性智能体系统（基于基础模型开发）

Suzhou AI Lab & Shuqian Tech（Gemini 3、Claude Sonnet 4.5、GPT5.1）
Lenovo LR AILab（GPT5、o3、Gemini-3-pro）
NVIDIA（Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等）
ZTE-AICloud（ZTE NebulaLLM + Claude/Gemini）
JoinAI（JoinLLM + GPT4.1/DeepSeek/Gemini）
其他：AIP agent、MAI-A Ads、ShawnAgent（集成GPT5/o3/Claude/Gemini）

3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列

包含 Instant、Thinking、Pro 三个版本
在 GDPval 评测 中超越44个职业的人类专家水平
在 GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录

Google 推出 Gemini Deep Research 智能体

开源 DeepSearchQA 基准，用于评估网络研究能力
在 HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果

Mistral AI 开源 Devstral 2 代码模型系列

包括 Devstral 2 (123B) 和 Devstral Small 2 (24B)
在 SWE-bench Verified 上达 72.2%
成本效率比 Claude Sonnet 高达7倍

关注我，获取更多AI前沿洞察

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

大模型榜单周报（2025/12/08—2025/12/12）

相关帖子

签约作者

大模型榜单周报（2025/12/08—2025/12/12）

相关帖子

相关推荐

签约作者