中文本地 ocr 识别, tesseract 有没有训练好的中文字库?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2284 天前的主题，其中的信息可能已经有所发展或是发生改变。

需要在本地使用 ocr 识别, 但是 tesseract 对中文的支持不怎么好, 查了一下需要训练中文字库。感觉有点麻烦，有没有训练好的字库？或者其他的方法可以实现本地的中文识别。

字库

中文

tesseract

OCR

16 条回复 • 2023-05-08 18:04:31 +08:00

wshedu

2018-01-21 14:07:43 +08:00

百度和腾讯云都有 ocr 在线识别。

goodan

2018-01-21 14:10:03 +08:00 via iPhone

@wshedu #1 你看清楚楼主说什么了吗……

woyaojizhu8

2018-01-21 14:24:02 +08:00

不存在的，中文识别只有 abbyy 文通和汉王

Genii

2018-01-21 16:27:50 +08:00 via Android

/s/1c3FuQFQ
不知道能不能用

murmur

2018-01-21 16:51:10 +08:00

训练这个东西最好是自己做除非是标准的印刷体或者直接像 1 楼说的用云服务不更好

m939594960

2018-01-21 19:03:49 +08:00

我也有类似的需求，但是都是标准的字体，有没有那种按字体训练好的

lonelygo

2018-01-21 19:50:03 +08:00

@woshichuanqilz @m939594960
如果是标准字体，用 tesseract 3.05 版本，是基于机器学习的方法而不是深度学习，自己准备数据集训练不算难。印刷体可以自己生成对应字体的 tif 文件，人工校对这个工作量不小，真训练过程很快也不难。
4.0 版本是基于 LSTM 的，算是深度学习的方法了，需要的数据集更大也会更慢，而且官方文档写的比较晦涩，需要结合代码和 3.0*的方法一起理解。
现成的，那就是 3 楼推荐的了，花钱买吧。