推荐一个 LLM 和数据科学方向很值得关注的开源作者!
——Vik Paruchuri @VikParuchuri
一位非常优质高产的开源作者,他的开源项目 Star 总计超过 25K,今天推荐三个项目:
- Marker 15.6k ✨
主要功能是将 PDF 文件快速准确地转换为 Markdown 格式
https://t.co/gNiFayCiBz
- 主要特点:
-- 支持多种文档类型,特别适用于书籍和科学论文
-- 支持所有语言
-- 能移除页眉、页脚和其他人工制品
-- 可以格式化表格和代码块
-- 能提取并保存图像
-- 可以将大多数方程转换为 LaTeX 格式
-- 可在 GPU、CPU 或 MPS 上运行
- 工作原理:
-- 提取文本,必要时进行 OCR(使用启发式方法、surya 和 tesseract)
-- 检测页面布局并确定阅读顺序(使用 surya)
-- 清理和格式化每个文本块(使用启发式方法和 texify)
-- 组合文本块并对完整文本进行后处理(使用启发式方法和 pdf_postprocessor)
- Surya 9.6k✨
Surya 是一个文档 OCR 工具包,具有以下功能:
-- 支持 90 多种语言的 OCR,其性能与云服务相比表现良好
-- 能够在任何语言中进行行级文本检测
-- 布局分析(可以检测表格、图像、标题等)
-- 阅读顺序检测
https://t.co/52AELFU7K0
- Zero to GPT 942✨
一个全面的深度学习课程,旨在帮助学习者从基础开始,逐步掌握复杂的 GPT 模型训练技能。
-- 课程目标:从零基础开始,引导学习者到能够训练自己的 GPT 模型。
-- 课程定位:面向希望理解和应用 AI 的人群,强调 AI 正从研究实验室走向实际应用。
-- 解决实际问题(如天气预测和语言翻译)
-- 深入讲解理论基础(如梯度下降和反向传播)
-- 课程内容:从神经网络架构和训练方法的基础开始
逐步深入到复杂主题,如 transformer、GPU 编程和分布式训练。
https://t.co/1OP8FNrPLn
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图