项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档
最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。
筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。
问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
几个硬性要求:
1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
3.可以保存为可搜索 PDF
4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致
福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了
1
Doldrums 2020-08-06 17:08:11 +08:00
万兴? PDFelement
|
2
tfdetang 2020-08-06 17:49:44 +08:00
这种 pdf 的 sdk 大概多少钱啊?
|
3
Threeinchtime 2020-08-06 17:51:37 +08:00
我司 intsig
|
4
Morriaty 2020-08-06 18:24:57 +08:00
ABBYY 似乎要有个物理 U 盘狗才能用?
国内的话,庖丁科技有个完整的产品叫 PDFlux,demo 看起来很牛逼,不知道有没有付费 sdk |
5
rocky55 2020-08-06 18:26:03 +08:00
或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
|
6
jilu171990 2020-08-06 21:00:40 +08:00
ABBYY 谈下来啥价?
|
7
aosp 2020-08-07 10:31:26 +08:00
百度开源的 PaddleOCR 可以自己改造一下
|
8
walkfish 2020-08-07 10:37:11 +08:00
@Threeinchtime 在合合摸鱼,你领导知道么
|
9
Threeinchtime 2020-08-07 17:35:43 +08:00
@walkfish 哟?报上名来
|
10
Gathaly 2020-08-09 15:33:23 +08:00
专业领域的需要特定业务判断进行版面分析
开源做的最好的就 tessercert 了 对于 api caller 而言,遇到表格、图文混合的十有八九会有乱码的 |
11
Beeethoven OP @jilu171990 每年 10W 页 7000 刀左右
|
12
Beeethoven OP @Morriaty 下了一个看了看 重点在表格提取上 ocr 功能挺弱的.. 表格提取我喜欢开源的 tabula 随便按照需求魔改
|
13
johnsonshu 2020-08-20 18:25:29 +08:00
@Beeethoven tabula 不能处理图像吧。 只能处理文字型的 PDF
|
14
LoneFireBlossom 2021-09-09 16:01:35 +08:00
怪不得 MarginNote 一直没上线桌面端的 ABBYY OCR 功能,这价格确实贵。
|