1
redeemer1001 2020-07-31 22:34:04 +08:00
没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5. 摘自 https://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26 |
2
shiny 2020-07-31 22:58:00 +08:00
做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者关键词匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有公司没有把格式写的完完全全一样。
要是数据项第三方库有,用第三方的更省事,比如 tushare |
3
ladypxy 2020-07-31 23:01:16 +08:00 via iPhone
Word 打开 pdf,直接复制到 excel
|
4
gladuo 2020-07-31 23:37:33 +08:00
|
5
jumpshen 2020-07-31 23:44:41 +08:00 via iPhone
正好也在查这方面的资料
|
6
whileFalse 2020-08-01 10:04:29 +08:00
OCR 试试?
|
7
0ranger 2020-08-01 10:29:41 +08:00 via iPhone
白描 ocr 据说可以,不过我没成功
|
8
whi147 2020-08-01 11:15:33 +08:00 via iPhone
最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
|
9
whi147 2020-08-01 11:16:30 +08:00 via iPhone
还有 wxexcel
|
10
hwlhwlxyz 2020-08-01 11:17:00 +08:00
如果不是图片的话,我用过 tabula,还挺好用的,不知道你的格式是什么样子的。https://github.com/tabulapdf/tabula
|
11
heguangyu5 2020-08-01 12:08:47 +08:00 via iPhone
mupdf +1
mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用工具,做格式转换、文字、图片、字体提取都很好用。 |
12
dayeye2006199 2020-08-02 08:20:13 +08:00
|
13
iwukong OP @dayeye2006199 这的花多少钱
|
18
dayeye2006199 2020-08-04 12:03:56 +08:00
@iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
|
20
iwukong OP |