TableGPT2: 让 AI 真正读懂表格的突破
# 首个成功将 23 项表格处理任务性能大幅提升 35-49% 的大语言模型, 通过 60 万表格的训练, 让 AI 像人类一样自然地理解和处理各类复杂表格数据
** 核心方法 **
* 数据规模
- 使用了 593.8K 张表格数据
- 236 万组查询-表格-输出样本
- 86B token 的预训练数据
* 技术创新
- 设计了一个专门的表格编码器
- 使用了类似视觉模型的多模态对齐方案
- 实现了一个完整的 Agent 框架
* 训练策略
- 基于 Qwen 继续预训练
- 编码器预训练
- 监督微调
** 实验结果 **
* 基准测试选择
- 传统的 TableQA 任务
- SQL 生成任务
- 表格验证任务
* 性能提升显著
- 7B 版本平均提升 35.20%
- 72B 版本提升 49.32%
论文地址:
https://t.co/cuSuJOZYRe
点击图片查看原图