找回密码
 立即注册
首页 业界区 业界 大模型榜单周报(2025/12/08—2025/12/12)

大模型榜单周报(2025/12/08—2025/12/12)

赐度虻 2 小时前
上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
1. 周重要变化

以下为OpenRouter模型调用量排名变动
整体调用量:


  • Grok Code Fast 1 登顶
  • Grok 4.1 Fast 跌出前10
  • Claude Opus 4.5 从第6升至第4
  • GPT-OSS-120BGemini 2.5 Flash Lite 重回前10(第5、第7)
  • MiniMax M2 掉出前10
市占率:


  • Google23.5% 重回第一(+4%)
  • xAI 份额暴跌至 17.3%(-16.6%,两周累计降幅超20%)
  • Anthropic、OpenAI、DeepSeek 紧随其后
编程调用量:


  • 前二名不变:Grok Code Fast 1Claude Sonnet 4.5
  • GPT-OSS-120B 从第9跃升至第3
  • MiniMax M2 降至第5
  • Devstral 2 2512 新晋第9
各类能力榜单更新

榜单表现亮点大语言模型(Text Arena)ernie-5.0-preview-1103 新晋第19名(预发布评分)编程能力(LMArena)gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布)代码工程(SWE-bench BashOnly)GPT-5.2 (high reasoning) 第3,GPT-5.2 第5图像编辑(Artificial Analysis Image Editing Leaderboard)Seedream 4.5 第2,P-Image-Edit 第7文生图(Artificial Analysis Text to Image Leaderboard)Seedream 4.5 第5,Z-lmageTurbo 第10理科能力(LLM Stats GPQA)GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2前沿数学(EPOCH AI FrontierMath)GPT-5.2 以40.3%正确率登顶(首次突破40%)GAIA 榜单Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第42. 周各榜单排名情况

OpenRouter 相关排名


  • 调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
  • 公司市占率前三:Google、xAI、Anthropic
  • 编程调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B
按公司划分的多维榜单表现

榜单领先公司/机构Text Arena(大语言模型)Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeekLMArena(编程)Anthropic、OpenAI、Google、智谱LiveCodeBench(编程)Anthropic、Google、OpenAI、阿里、月之暗面SWE-benchLite(代码工程)基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先Image Edit Arena(图像编辑/生成)Google、字节、Reve、Black Forest LabsText-to-Image Arena(文生图)Google、Black Forest Labs、腾讯、字节Image Editing LeaderboardGoogle、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里Text to Image LeaderboardGoogle、Black Forest Labs、字节、ImagineArt、阿里GPQA(理科)OpenAI、Google、xAI、Anthropic、阿里FrontierMath(前沿数学)OpenAI、Google、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIA 榜单代表性智能体系统(基于基础模型开发)


  • Suzhou AI Lab & Shuqian Tech(Gemini 3、Claude Sonnet 4.5、GPT5.1)
  • Lenovo LR AILab(GPT5、o3、Gemini-3-pro)
  • NVIDIA(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
  • ZTE-AICloud(ZTE NebulaLLM + Claude/Gemini)
  • JoinAI(JoinLLM + GPT4.1/DeepSeek/Gemini)
  • 其他:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)
3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列


  • 包含 Instant、Thinking、Pro 三个版本
  • GDPval 评测 中超越44个职业的人类专家水平
  • GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录
Google 推出 Gemini Deep Research 智能体


  • 开源 DeepSearchQA 基准,用于评估网络研究能力
  • HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果
Mistral AI 开源 Devstral 2 代码模型系列


  • 包括 Devstral 2 (123B)Devstral Small 2 (24B)
  • SWE-bench Verified 上达 72.2%
  • 成本效率比 Claude Sonnet 高达7倍
关注我,获取更多AI前沿洞察

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册