问:参加展会,需要将展会信息扫描成PDF然后做OCR,但是手工摘录供应商信息效率太低。尝试对PDF分割做分割后OCR,再让GPT识别生成文本字段,但是有些供应商字段不完整,无法直接输出到Excel,效率很低。该如何去改善?(参考图1)
答:
OCR 建议使用 Gemini 模型,比GPT效果识别效果更好
没有必要预先对PDF预分割处理,整张图片直接发给 Gemini 就可以帮你自动识别不同厂商和各个字段
优先考虑使用 JSON 格式提取结构化数据,CSV 格式不是 Gemini 这样的模型擅长的模式,输出时经常会出现错乱。
可以根据厂商信息预先定义好JSON的格式,要求包含哪些字段,那么 Gemini 在生成时会自动帮你填充到对应字段,在定义Schema时,将字段定义为不是必须要有的,那么没有相应的内容在输出时就会跳过,不会影响整体输出。(参考图2)
提示词可以比较简单:
> 请将展商目录中的展商信息按照JSON Schema的定义提取成JSON数组。
从截图(图3)中可以看出,基本上很完美的输出了期望的JSON格式,按照想要的结果都填充到了相应的字段。
得到JSON格式后,可以用一段小程序(Python、Javascript等),将JSON读取后转成CSV文件。
整个过程也可以用Python或者JS这种程序写成代码,用代码去将PDF转成每一页一张图片,调用 Gemini API 去解析图片获得 JSON 结果,解析 JSON 结果,拼接后生成一个大的CSV 文件。 (理论上来说这么简单的程序让 Cursor、GPT-4、Claude 3.5 都是可以搞定的)
关键部分还是在大语言模型部分,要善于利用大语言模型,借助提示词,让其返回“你想要的格式”+“它擅长的格式”。再配合代码将整个过程自动化。
很多时候“你想要的格式”并不是它擅长的,比如 Excel 或者 CSV,这时候就要学会变通,让其生成它擅长你也可以借助程序转换成“你想要的格式”,比如 JSON 格式。
点击图片查看原图
点击图片查看原图
点击图片查看原图