有办法将 pdf 转成 markdown 吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 798 天前的主题，其中的信息可能已经有所发展或是发生改变。

试了下网上的几个工具，结果出来都不太理想。

pdf 都是一些产品说明介绍，有各种图表图片等，排版复杂没有规律。

想着能不能把产品 pdf 的主要内容，表格之类的转成 markdown ，方便后续 embedding 喂给 chatgpt 。

又或者 pdf to markdown 这一步需要单独训练个 AI 出来？如何开始，大家有思路吗？

19 条回复 • 2023-08-25 16:49:57 +08:00

me221

2023-08-25 09:19:39 +08:00

pdf 可以直接 embedding 给 ChatGPT 呀

SWALLOWW

2023-08-25 09:29:16 +08:00

@me221 怎么嵌入啊，怎么给文件，图片这些信息啊

elevioux

2023-08-25 09:29:25 +08:00

@me221 如果我理解没问题的话，embedding 本身只是用于语义搜索，搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话，chatgpt 拿到文本也是很难理解。还是我思路有问题？望指教

fzls

2023-08-25 09:31:54 +08:00

@elevioux #3 下面这个网站可以直接喂 pdf

https://www.chatpdf.com/

yekern

2023-08-25 09:31:56 +08:00

pdf 转 html 转 markdown 不可以么

elevioux

2023-08-25 09:39:28 +08:00

@fzls 知道有这个网站，试了一下，有些问题还是回答不了，说文本没有提到。。。。

elevioux

2023-08-25 09:41:28 +08:00

@yekern 有想到过，也试过，还是表格形式的数据难以转换。pdf 的排版太没规律了，我们人眼看起来是个表格，转成 html ，就成了各种 div 的拼凑。

c2const

2023-08-25 09:55:21 +08:00

1.PDF 包含的信息太多了，比如嵌入私有字体都可以，想保留格式转化没啥好办法 :(
2.可以直接把所有 PDF 打印成高质量图片，markdown 贴图 :)
3.精细一点，可以把简单格式的文字转 markdwon ，不方便转表格图片其它格式就用图片，但是不知道有没有现成的自动化程序 :(

gitignore

2023-08-25 09:59:56 +08:00

找个大学生帮你手工转

me221

2023-08-25 10:08:10 +08:00

@elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题，可以用 OCR 把 PDF 转为 Docx 格式，然后 embedding

elevioux

2023-08-25 10:13:51 +08:00

@c2const 其实并不是想要用 markdown 来还原 pdf ，只是用 markdown 来保留 pdf 的关键信息和表格，方便 chatgpt 理解。

elevioux

2023-08-25 10:25:21 +08:00

@me221 试过百度的 padddle ，错别字有点多（ pdf 主要是繁体），当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容，如标记哪里是表格，哪里是大段文字等，再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉，用 pytorch 写了个 demo 就没有然后了，不知如何开始。