我发现大家对于 ChatGPT 在文档对话支持方面的能力都普遍认为比较差,这篇分析相对比较靠谱:
1. OCR 能力不行,OCR 能力不行那从源头上的文字的输入就是有问题的,后续的召回和对话肯定好不了
2.上下文长度不够长,如果长度不够那么一次输入的信息就不够长,导致输出不够好
3. RAG 本身就是很复杂的技术,即使如 OpenAI 也不是那么多容易做好的
以下内容翻译自原推:
***
与 PDF 对话之难,及 ChatGPT 在此领域的不足 - 原因分析
目前最普遍的 GPT-4 应用之一是“文档/PDF 对话”功能。这被认为是 AI 聊天机器人的一项杀手级应用,因为要读懂内容繁多的文件是很烦人的事 —— 相比之下,直接让大语言模型帮你解析并总结内容显得更加简便。
然而,遗憾的是,当处理超过 10 页的 PDF 文件时,ChatGPT 的表现并不尽如人意。它所提供的总结往往过于简略且笼统,甚至在被要求提供更多细节时会直接拒绝。
造成这一问题的原因之一是,这不是一个简单的应用场景。
OCR - 有效的 OCR 技术是必需的,它需要能够精确解析表格和图像。但目前无论是免费的还是商业的 OCR 技术都难以做到这一点。大量商业和研究用的 PDF 文件中含有众多表格和图像。
上下文 - 尽管我们现在有 128K 上下文长度的大语言模型,但目前尚不清楚 ChatGPT 实际部署了哪种模型。如果你对一篇论文进行 OCR 处理后再输入其文本给 ChatGPT,它经常会出现错误。我怀疑 ChatGPT 服务的是一个上下文长度更小的模型。
快速 RAG - 实施一个简单的 RAG 处理流程,即将文档分块、嵌入、检索结果后再传递给大语言模型,可能是一个有效的解决方法。但目前的聊天机器人尚未具备这样的功能。
突出文档关键部分 - 理想的解决方案应当能够明确展示出答案来源于文档的哪些部分。这将极大地简化验证过程。
理想情况下,与 PDF 对话的功能应包含以上所有特点。似乎,如果一款独立的应用程序能够很好地实现这些功能,即使在应用商店中也能获得可观的收入。不过,我认为这并不适合作为一个获得风险投资支持的创业项目,更像是一个一两人小团队可以经营的小本生意,足以成为一种舒适的生活方式。
简言之,实现一个看似简单的“与 PDF 对话”功能,其实是一个复杂且难以做到极致的任务。
点击图片查看原图