在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做 , page 3

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

1904 位用户此时在线

24小时点击排行 Top 10：

在中国领导人习近平持续推进反腐运动之际，《华尔街日报》近日报道称，习近平试图传达“无心之失可从宽处理”的信息，并表示“一些错误是可以接受的”。然而，分析人士认为，习近平的专制风格与容错机制存在根本矛盾，统治与容错之间难以兼顾。报道：

网友：日本核废水，未检测出异常。特别想知道，视频里面的女子，作何想法？有没有可能：日本当初排放的，本来就已经合格了？

15K-20K 招聘远程高级前端开发

“每一次有医生站出来，其实都意味着出现了真正的公共卫生危机”

狗妈妈衔着重病狗宝宝前往兽医院求助一幕走红一只狗妈妈将其陷入昏迷、体温过低的狗宝宝叼到一家兽医诊所的门口，请求兽医们的帮助。这看起来像电影中才会出现的场景却是在土耳其伊斯坦布尔真实发生的一幕。

近日，一名河北村民拍视频向国外网友展示真实的农村面貌和生活，结果被一些网友提醒此举泄密，建议他慎拍或删掉视频，防止外国间谍窃取中国的街景。

律师指导你接到派出所电话怎么办

1月24日，辽宁。等绿灯的间隙，一名外卖员崩溃大哭：我都被堵一天了

美國海軍陸戰隊已抵達墨西哥邊境打擊非法移民。

1月24日，抖音上一段讲皇帝驾崩的视频，网友集体刷屏“接好运”弹幕。

寶馬車主扛不住年關，在跨海大橋上跳海⋯⋯

1月23日(发布) 一名博主用台湾最低日薪，在当地一家平价连锁超市测试了购买力。最终博主购买了6公斤大米、沙拉油2公升、挂面2公斤、鸡蛋10粒、鲜牛奶1.85公升、猪里脊330克、鸡腿300克、白虾250克、生菜250克、小黄瓜300克、一根白萝卜等商品。

一個人選擇應該選擇的是勇士一個人放棄不該放棄的是懦夫

德国人怎么看马斯克行“纳粹礼” 马斯克在集会上比出貌似纳粹敬礼的手势，引起舆论哗然。德国人怎么看这件事？ #dwberlinfresh

強者從不抱怨環境

抖音博主巴博斯，发布了九百多条朝鲜的剪辑视频，贡献了数月的将军梗，短短几月便吸粉上百万。谁曾想他在1月1日发布一段天安门的视频，并配文：“麦子熟了五千次，人民万岁是第一次” 史称为了一碟醋包了九百个饺子，蓄势已久就为告诉观众真正的朝鲜在哪

奶凶奶凶的一次冲锋。

摩西之问：愚民是究竟谁制造的？

说出“麻约不睡，血压不降，泄药不泄”的上海郑民华医生因这一经典总结受到单位和政府全面打压。为他人抱薪者，己冻毙于风雪中。请大家一起转发、发声。

一记录中国现实的B站账号被约谈，视频被删可惜，在这里，不能和外国人对账

1月23日，广东深圳。一小女孩称，父亲在南山医院做脑血管造影后成为植物人，母亲去南山区政府维权后失联，她现在不知道该怎么办，目前该视频已被删除。

Trump forgot to include the Epstein file on the list but I don't forger this

1月24日，一名博主为郑民华医生发声：一些“正能量”渲染极端民族主义，攻击郑民华崇洋媚外。但人家是政协委员，职责就是建言献策，并且国家医保局也表示欢迎医务人员吹哨。 “你们污名化为公共利益发声的人，逼着大家噤若寒蝉，天天跟着张维为他们醉生梦死，一点点断绝社会变好的希望”

【温家宝为农民工讨薪】 “总理来了，你不要乱讲” 温家宝问：“在哪儿打工，本地还是外地，欠不欠工资？”当场一片死寂。 “我家去年在云阳县城打工，包工头欠我家2000多元钱。”熊德明忍不住小声说. 总理沉吟说：“一会儿我到县里去，一定给县长说，欠农民的钱一定要还！” 当晚凌晨，她收到2240元的拖欠工资

1月23日，江苏南京，交通银行南京分中心，员工举标语抗议违法裁员。

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。
作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做
IT技术
( twitter.com )

6个月前由宝玉提交

在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。

作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做 Embedding，这样借助多模态，后续用文字检索时，基于向量检索也能检索出图片中的内容。

但这样做也有缺点，就是是以页为单位做 Embedding，对于跨页的数据，可能检索起来效果要差一些。另外还跟所用到的多模态的大语言模型能力有很大关系，如果模型本身对图片识别能力较弱，也会影响检索的效果。

我不觉得这种方案能代替传统基于文字的 RAG 方案，但是作为一个针对图表、表格优化的补充辅助方案还是不错的。

如果你想了解这个方案的更多详情，可以参考这篇文章：《使用视觉语言模型进行 PDF 检索》
https://t.co/XZYMe0iLFB

点击图片查看原图

点击图片查看原图

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
7
8
...
400
下一页

1

1

0

0

原来【沉浸式翻译】直接支持翻译在线 PDF 和本地电子书（Epub, PDF, txt, 字幕文件），只能说入口实在太低调哈哈，这下生产力又上升了(我是装完 ebook-GPT-translator 才发现的😂 )

简单教程：…
IT技术
( twitter.com)

1年前 • starzq.eth⛩️ • -- 点击 0 评论

2

2

1

1

《Company of One 》中英文对照PDF

“一本非常适合独立开发者的书籍”

作者是网页设计师，是亚马逊上最畅销的关于一人创业的书籍

这本电子书，Amazon售价26美金。

现在，我提供免费的中英文对照PDF版本。…
IT技术
( twitter.com)

1年前 • Journeyman • -- 点击 0 评论

3

2

1

1

你以为是 100 K 上下文，其实是 RAG ……
IT技术
( twitter.com)

9个月前 • 宝玉 • -- 点击 0 评论

4

2

1

1

一个人独处的时候可以做的100件事


海外华文
( www.douban.com)

3年前 • 豆瓣小组 • -- 点击 0 评论

5

2

1

1

文件指出 #欧盟在必要的时候，必须用中国对待境内欧洲公司的手段对待在欧洲寻求业务发展的中国公司. #中国战略

推特中文圈
( www.dw.com)

3年前 • 德国之声 • -- 点击 0 评论

6

2

1

1

昨天问扫描pdf能否翻译的有答案了，推荐一个文件翻译平台（引用DeepL引擎）GT4T，扫描的pdf它自动帮你OCR好、整理好格式再送给DeepL。这是作者 @ShouguangCao
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

7

6

5

5

【82岁“深海勇士”汪品先：唯对时间不能慷慨】82岁仍活跃在科研一线，全球同行中已鲜见同龄人。汪品先在追赶逝去的时间，他的年龄是错位的，该做事情的时候时代原因让他做不成，该退的时候反而有条件做，“丢了好多年”。
大陆资讯
( www.bjnews.com.cn)

6年前 • 红狮子会 • -- 点击 0 评论

8

2

1

1

【无损压缩鼻祖Abraham Lempel教授去世】他41岁时和同事Jacob Ziv发明了LZ77/LZ78压缩算法，后来才有了Zip、GIF、PNG、TIFF、MP3、PDF等直到今天还在流行的文件格式。
大陆资讯
( www.qbitai.com)

1年前 • 不知道 • -- 点击 0 评论

9

2

1

1

1.安装AskYourPDF / Chatwith PDF

在插件商店中，找到安装插件

它是 100% 免费的，只需在列表中找到它。
币圈
( twitter.com)

1年前 • Will 3.6-6.16 硅谷 • -- 点击 • 下载视频 0 评论

00:00:13

10

2

1

1

推荐两个ChatGPT的chrome插件
1）浏览网页的时候，按 ctrl + \\ 把GPT对话框召唤出来。2）你在google的时候，同时ChatGPT…
推特中文圈
( twitter.com)

2年前 • Hao Chen • -- 点击 0 评论

11

2

1

1

这样解析 PDF 真是聪明的做法！👍🏻
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

12

2

1

1

转译：一种全新的 RAG 方法让文档理解更上一层楼
RAG 技术已经迅速成为在实际应用中部署大型语言模型（LLMs）的首选方式。但大部分现有技术仍面临一个局限：它们只能从文档中检索到一小段连续的文本，这限制了对整个文档上下文全面理解的能力。
现有一种创新方法，名为…
IT技术
( twitter.com)

11个月前 • 宝玉 • -- 点击 0 评论

13

6

5

5

【理解数字世界中的纸张：PDF】很多人都知道PDF具有通用性好、外观稳定等优点，但也有文字复制、编辑不便等问题，本文就为你揭秘PDF这些特性背后的奥秘。
大陆资讯
( sspai.com)

6年前 • 流精岁月 • -- 点击 0 评论

14

2

1

1

我看电子书的需求很大，原来是靠Kindle、Boox和掌阅电子阅读器，但现在基本都在电脑上读，pdf和英文epub用Koreader软件，中文epub用Foliate软件。为什么，因为快、爽。我有种感觉，电脑软件读电子书，比电子阅…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

前一阵做的 dispdf，现在开源了。
你可以在部署此项目，通过私有 openai key，自由地与 PDF 对话。下面是一些经典使用场景：
1. 总结和分析论文、学术文章。
2. 报告总结、分析和针对细节的提问。
3. 回答任何…
推特中文圈
( twitter.com)

1年前 • Austin aka 驭风 • -- 点击 0 评论

16

2

1

1

NotebookLlama: 来自 Meta AI 的开源版 NotebookLM, 将 PDF 文档转换为有声播客, 实现从文本到音频的完整转换链路。
工作流程分为四个主要步骤:
- 步骤1: 使用 Llama-3.2-1B-Instruct 预处理 PDF 文件
- 步骤2: 用 Llama-3.1-70B-Instruct 生成播客文稿
- 步骤3: 使用 Llama-3.1-8B-Instruct
时政
( twitter.com)

3个月前 • meng shao • -- 点击 0 评论

17

2

1

1

花钱买了 PDF Expert 的年费 Pro 账户，就为了一个功能——删除 PDF 的页面。

（MarginNote 免费版也能删，但操作很慢很费事）

在 iPad 看 PDF 时，读到已然深谙的知识，就直接拿 Apple…
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

18

2

1

1

（1/6）看场景，我觉得 LangChain 对于做 chat 类应用来说就是废的。
拿我前段时间自己测过的一个例子来展开聊聊。
这个是LangChain JS 官方的一个github 仓库的 RAG 示例，链接在这里：
时政
( js.langchain.com)

11个月前 • 空谷 · Arvin Xu • -- 点击 0 评论

19

3

2

2

一组由500名加拿大教授、医生、科学家和医护人员组成的小组编制了一份详细的PDF文件，表明他们认为辉瑞公司的Covid疫苗弊大于利。该PDF文件非常详细，描述了导致他们得出这一结论的若干因素，包括来自辉瑞公司自己的6个月报告的数据。
推特中文圈
( report24.news)

3年前 • twitter机器人 • -- 点击 0 评论

20

2

1

1

微信读书到了收割的时候了，9元一个月，我没什么兴趣，卸载了。

今年开始，所有书都买了pdf（有人专门做把纸质书扫成pdf的生意），成本差不多一本8-20元不等，后面准备全放dropbox或者Google drive之类的网盘里。
币圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

21

2

1

1

低调的PDF，为什么成了数字文档“永远的神”？
大陆资讯
( www.yystv.cn)

1年前 • 不知道 • -- 点击 0 评论

22

2

1

1

百度文库出品的工具箱
免费专业文档处理平台
可以实现PDF和office互转
PDF加水印等等
还算有点良心哈哈

图片
( box.baidu.com)

3年前 • twitter机器人 • -- 点击 0 评论

23

2

1

1

如何判断事情的对错，
这三点可以参照：

1）你做这件事的时候即使是劳累的，但也是开心的，就说明你做这件事情是对的，假如你做这件事情不累，但是你心里有些难受，这个事情就不是对的，身体的感受是非常诚实的，不可欺骗的；…
时政
( twitter.com)

1年前 • QQ.FM Zhang Lei • -- 点击 0 评论

24

2

1

1

从蚂蚁离职的时候，对这几年做的工作非常失望。写了很多文章反思自己的失败。

推特中文圈
( www.kawabangga.com)

2年前 • twitter机器人 • -- 点击 0 评论

25

2

1

1

分享一下 Deck 中的一页，从 high level 的角度描述了底层的架构（RAG 系统）：
1. 外部知识
2. 编码
3. 索引
4. 解码 & Retrieve
5. 排序
6. 生成
一个高效的 RAG 需要在每个环节都做非常多的优化工作。
IT技术
( devv.ai)

1年前 • Jiayuan (Forrest) • -- 点击 0 评论

1
2
3
4
5
6
7
8
...
400
下一页

0.17448 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特