V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
DaguguJ
V2EX  ›  问与答

寻找一个比较成熟的 OCR 中文训练模型

  •  
  •   DaguguJ · 2020-06-04 13:19:27 +08:00 · 1320 次点击
    这是一个创建于 1667 天前的主题,其中的信息可能已经有所发展或是发生改变。

    environment: 一直在做 python,之前没接触机器学习相关项目,然而现在任务有关 ocr 。 what i need: 一个月左右的时间,识别 pdf 中的文字,支持中英文数字即可 what i do: 1.识别 pdf 格式的文本信息(普通的 pdf 都可以轻松做到) 2.针对 pdf 中的图片,或者本身就是扫描文件,进行了 ocr 识别 3.ocr 中,使用 github 开源的 tesseract,和官方的 chi_sim,chi_sim_3 和 chi_tra 包,真实环境识别起来惨不忍睹,所幸已经初步有自己训练的思路(导入常用的汉字,输出各种字体的图片写脚本训练)。 what i want: 希望有经验的朋友帮我分析一下,一个月的时间怎么训练会更快更好,大概能有什么效果。同时,如果有已经成熟的 OCR 解决方案,或已经训练得比较成熟的 traindata 包资源,推荐一下,谢谢大家。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2720 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:01 · PVG 20:01 · LAX 04:01 · JFK 07:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.