V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
movq
V2EX  ›  程序员

扫描版 PDF 使用 OCR 软件转换成可复制版本的 PDF 之后,如何再转换成 epub 等移动设备可阅读的版本?

  •  
  •   movq · 2022-06-03 22:29:10 +08:00 · 2589 次点击
    这是一个创建于 939 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个中文扫描版 PDF ,我用 OCR 软件,比如 AABY Fine Reader 转换成了可以复制文字的版本,但是对于这种版本,使用 calibre 转换成 mobi 或者 epub 格式,都是失败的。

    我觉得可能的原因是,OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像,只不过可以复制。这种和纯文字版非扫描版的还是有区别。

    如果想转化成移动设备友好的格式,该怎么做呢?

    10 条回复    2022-06-04 13:39:38 +08:00
    Maipol
        1
    Maipol  
       2022-06-03 22:57:18 +08:00
    之前大概了解过,pdf 和 epub 底层好像完全是两个东西吧
    ygchy
        2
    ygchy  
       2022-06-03 23:42:52 +08:00 via iPhone
    扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧,但如果能接受……或许可以先把 PDF 转换成 Word ,然后再用 Word 文档制作 epub ?新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对,要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。
    whileFalse
        3
    whileFalse  
       2022-06-04 03:03:14 +08:00 via iPhone
    AABY 只能导出 pdf 吗?能不能导出 word
    shinsekai
        4
    shinsekai  
       2022-06-04 07:02:48 +08:00 via Android
    foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式,转 epub 应该就方便了
    i3x
        5
    i3x  
       2022-06-04 07:36:16 +08:00 via Android
    @ygchy 印刷体不至于。哪怕直接扫书。。。
    十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么,包括图的注那么小的都能认,除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。


    楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书,劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大
    xyjincan
        6
    xyjincan  
       2022-06-04 08:15:43 +08:00
    orc_pdf 原理,应该是在原有 pdf 基础上添加了一层不可见的可复制逐个字符,不具备原生 pdf 文本的重排版能力
    waterlaw
        7
    waterlaw  
       2022-06-04 10:51:58 +08:00 via Android
    @Maipol epub 底层是 html/css, pdf 有自己的格式
    ltkun
        8
    ltkun  
       2022-06-04 11:07:13 +08:00 via Android
    koreader 了解一下
    kongkx
        9
    kongkx  
       2022-06-04 12:52:45 +08:00 via iPhone
    想办法导出 html 。校对是个问题,保留段落排版的格式应该现在有工具可以做,之前看到的这个单一图片处理的 https://www.v2ex.com/t/851543?p=2
    felixcode
        10
    felixcode  
       2022-06-04 13:39:38 +08:00
    可以用 abbyy fine reader 这样的软件导出成 word 文档,再做转换。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1961 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:48 · PVG 08:48 · LAX 16:48 · JFK 19:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.