根据 LiveBench 的评分表格,xAI 的 “grok-3-thinking” 总体平均得分 71.57%,在编程任务上得分 67.38%,低于 OpenAI 的 o3-mini-2025-01-31-high(82.74%)和 o1-2024-12-17-high(69.69%)。
LiveBench 是一个由 xAI 等机构开发的无污染、客观的 LLM 基准测试平台,旨在通过每月更新问题和自动化评分解决传统基准的污染和偏见问题。其测试涵盖 18 个任务(如数学、编程、推理),难度高(顶级模型得分低于 65%),并提供动态、可靠的评估结果。
点击图片查看原图