根据 LiveBench 的评分表格，xAI 的 “grok-3-thinking” 总体平均得分 71.57%，在编程任务上得分 67.38%，低于 OpenAI 的 o3-mini-2025-01-31-high（82.74%）和 o1-2024-12-17-high（69.69%）。LiveBench 是一个由 xAI 等机构开发的无污染、客观的 LLM

发布时间: 2025-02-22 04:50:04

1分

数据加载中

关注推特

收听电报

2

1

0

根据 LiveBench 的评分表格，xAI 的 “grok-3-thinking” 总体平均得分 71.57%，在编程任务上得分 67.38%，低于 OpenAI 的 o3-mini-2025-01-31-high（82.74%）和 o1-2024-12-17-high（69.69%）。
LiveBench 是一个由 xAI 等机构开发的无污染、客观的 LLM
IT技术
( twitter.com )

19小时前由宝玉提交

根据 LiveBench 的评分表格，xAI 的 “grok-3-thinking” 总体平均得分 71.57%，在编程任务上得分 67.38%，低于 OpenAI 的 o3-mini-2025-01-31-high（82.74%）和 o1-2024-12-17-high（69.69%）。

LiveBench 是一个由 xAI 等机构开发的无污染、客观的 LLM 基准测试平台，旨在通过每月更新问题和自动化评分解决传统基准的污染和偏见问题。其测试涵盖 18 个任务（如数学、编程、推理），难度高（顶级模型得分低于 65%），并提供动态、可靠的评估结果。

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

看livebench的推理分就行了。Gemini2FT是o1以外唯一一个推理分能上60的，不过和满血o1比还是有很大差距
时政
( twitter.com)

2个月前 • EleventhCY • -- 点击 0 评论

2

2

1

1

TableGPT2: 让 AI 真正读懂表格的突破
# 首个成功将 23 项表格处理任务性能大幅提升 35-49% 的大语言模型, 通过 60 万表格的训练, 让 AI 像人类一样自然地理解和处理各类复杂表格数据
核心方法
* 数据规模
- 使用了 593.8K 张表格数据
- 236 万组查询-表格-输出样本
- 86B token 的预训练数据
时政
( twitter.com)

3个月前 • meng shao • -- 点击 0 评论

3

2

1

1

📊 Coze Bots 数据分析与可视化 [图表x12]
根据 Leo 兄提供的数据汇总统计，对 10 个类目合计约 10,000 条数据进行可视化分析：
✦ 概览：各类目中，「聊天数量」的 Top10 累和分布呈现。
✦ 概览：用「箱型图」呈现各类目的头部表现。
✦ 用「饼图」分析 Top 10 的分布情况。
✦
时政
( twitter.com)

8个月前 • JerLin • -- 点击 0 评论

4

2

1

1

狼（左）、鲸（中）和人类（右）乳汁营养成分的对比。哺乳动物会根据其后代繁殖的营养需求来生产乳汁。图中黄色部分代表脂肪，蓝色代表蛋白质，粉红色代表糖类，白色代表水分。
大陆资讯

11个月前 • 不知道 • -- 点击 0 评论

5

2

1

1

据说 ChatGPT 即将推出数据分析 V2，是新的 GPT-4 模型“gpt-4-ada-v2”（即高级数据分析 V2）。它新增了以下功能：
1. 针对上传文件配置数据表格编辑器：用户可直接在上传的数据文件上进行可视化的修改。
2. 通过选择特定的列、行或单元格来提供“定向回复”的选项：…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

6

2

1

1

跟大家分享一个可用于抓取和分析 X (Twitter) 推友数据的工具：x-kit。
能够自动抓取指定推友的基本信息和推文，并定时更新其时间线的数据，支持数据本地化存储。
GitHub：
可以通过 GitHub Actions 实现自动化抓取，默认每 30 分钟获取一次最新推文。
时政
( github.com)

1个月前 • 高军 • -- 点击 0 评论

7

2

1

1

AI 驱动 PDF => Markdown 转换技术评测
来自 Graphlit 的文章比较了不同 PDF 数据提取服务, 将 PDF 转换为 Markdown 格式。测试使用了一个包含财务报表的样本 PDF 表格, 比较范围包括 LlamaParse、和 Graphlit。
备注:
时政
( Unstructured.IO)

4个月前 • meng shao • -- 点击 0 评论

8

2

1

1

马书记又用一张表格造谣误导！表中右列数据的总和是
时政
( twitter.com)

5天前 • 今月🇺🇸💙 • -- 点击 0 评论

9

2

1

1

【熬夜刷帖，网瘾太重！总统米莱被嘲“X治国”，阿根廷人建网站监测总统上网时间】根据监测网站的数据，米莱20日的在线时长高达4小时13分钟，哪怕在21日凌晨，他仍继续刷帖。另外，米莱发帖时习惯配上由人工智能（AI）生成的卡通图片。
大陆资讯
( news.ifeng.com)

1年前 • 小唧唧 • -- 点击 0 评论

0.08149 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特