V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Visitor233
V2EX  ›  程序员

求助帖:营业执照内容识别

  •  
  •   Visitor233 · 2020-09-18 11:09:26 +08:00 · 3532 次点击
    这是一个创建于 1287 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,最近整的项目要识别上传的营业执照图片,并获名称和信用代码这些信息。git 上没搜到= =(或许姿势不对)。我对这块不了解,希望有经验的大佬留言指点下,谢谢。

    24 条回复    2020-09-19 06:42:15 +08:00
    shequ2046
        1
    shequ2046  
       2020-09-18 11:15:29 +08:00
    也求一下其他证件的识别代码。。。
    xinghen57
        2
    xinghen57  
       2020-09-18 11:17:08 +08:00 via iPhone
    图片处理加 ocr,这个思路试试吧
    jdhao
        3
    jdhao  
       2020-09-18 11:35:53 +08:00 via Android
    先用 ocr 识别文字和具体位置,然后做处理,提取你想要的内容
    Blulotus
        4
    Blulotus  
       2020-09-18 11:36:17 +08:00
    百度 api 每天有两百次免费额度
    renmu123
        5
    renmu123  
       2020-09-18 11:40:02 +08:00
    应该和发票识别挺像的
    twor2
        6
    twor2  
       2020-09-18 11:41:21 +08:00
    营业执照上有二维码,直接解析二维码上的网页内容如何?
    Visitor233
        7
    Visitor233  
    OP
       2020-09-18 11:41:23 +08:00
    @xinghen57
    @jdhao 么我也想试试自己写代码,少用第三方,这等提升自我的机会放弃了,可惜。
    @Blulotus 每天 200 次免费就很 nice,谢谢
    brendanliu
        8
    brendanliu  
       2020-09-18 11:41:26 +08:00
    百度 AI 文字识别-营业执照识别欢迎你 https://ai.baidu.com/tech/ocr_cards/business
    需要优惠可联系我
    jdhao
        9
    jdhao  
       2020-09-18 11:43:06 +08:00 via Android
    @Visitor233 你调用 ocr 识别 api 就行了,自己开发文字识别工作量巨大。或者像 8 楼那样,直接调用识别证件的接口,一步到位,看你自己的需求。
    xinghen57
        10
    xinghen57  
       2020-09-18 11:51:30 +08:00 via iPhone
    @Visitor233 github 上找图片处理类软件的项目,或者天若 ocr,这个是有源码。
    天若 OCR 的思路是先处理,得到符合百度 OCR API 要求的图片再上传识别。
    之前百度文字 OCR 的 API,每天是上万次的免费,一般小企业够用的。
    不先以处理,会影响 OCR 识别效果。
    xinghen57
        11
    xinghen57  
       2020-09-18 11:53:06 +08:00 via iPhone
    不过有个问题,无论自己开发还是调用现场执照识别 API,准确率都没法 100%
    wwwwzf
        12
    wwwwzf  
       2020-09-18 12:03:21 +08:00
    https://v.ziti163.com/Font/webfont
    这有 ocr 识别,点上面菜单进,你看看
    chinvo
        13
    chinvo  
       2020-09-18 12:05:42 +08:00 via iPhone
    @twor2 #6 系统改过好几次,有很多营业执照上的二维码已经是无效链接甚至域名都没了
    Visitor233
        14
    Visitor233  
    OP
       2020-09-18 14:37:09 +08:00
    @brendanliu
    @xinghen57 刚试了百度的 OCR,图片里的 J 字母识别成了数字 1,这就很尴尬了
    brendanliu
        15
    brendanliu  
       2020-09-18 14:53:00 +08:00
    @Visitor233 目前无法做到 100%精准识别 badcase 可以在工单里反馈 工程师会对模型做相应的优化
    qiayue
        16
    qiayue  
       2020-09-18 14:53:19 +08:00
    @Visitor233 肉眼可能出错的,程序识别也会出错
    xinghen57
        17
    xinghen57  
       2020-09-18 16:07:02 +08:00 via iPhone
    @Visitor233 你还是用现成的营业执照 OCR API 吧。
    J 识别错,正则替换或其他方式,比如分割处理下后再识别。
    另外看看文档,可能可以添加英文识别。
    我没接触太多,感觉几个技术点,一个在图片前期的处理,一个是 OCR 识别(准确率、排版以及准确度低的处理)
    天若对 OCR 的排版做的一般,对准确度处理根本没做。
    接触过的文字识别类软件,比如百度 OCR API (免费的文字识别)、白描、熊猫啥啥的、acrobat,都很少对识别准确率低文字的处理流程。
    这块超出你能力太多了。
    你要有想法,慢慢补没问题,直接拿出来用不是明智的选择。
    上面的都搞定了,完全可以开发个 app 自己用,嗯我我就是这么长远规划的。
    另外 OCR 好像有本地识别模型可以深度学习,又涉及神经网络了。
    技术有天花板,即便识别率 99.99%,剩下的 0.001%,需要其他非技术解决。
    慎满腔热血扎进去,后头土脸走出来。
    xinghen57
        18
    xinghen57  
       2020-09-18 16:12:44 +08:00 via iPhone
    有些东西可以自己积累。
    我之前识别,遇到“一 yi”,识别出来后会有“-_—~”这几个,直接正则替换就解决了。
    这虽说是优化,但只是笨办法而已。
    yishengyongyi
        19
    yishengyongyi  
       2020-09-18 16:17:08 +08:00 via Android
    用腾讯或者阿狸的,要求识别率高的话就属于人工智能范畴了,自己开发大概率比不过腾讯和阿狸
    wongchance
        20
    wongchance  
       2020-09-18 16:31:58 +08:00
    dorothyREN
        21
    dorothyREN  
       2020-09-18 20:04:52 +08:00
    免费接口就行
    evonotevil
        22
    evonotevil  
       2020-09-18 23:50:09 +08:00
    Mac 扫描王
    zliea
        23
    zliea  
       2020-09-19 06:01:16 +08:00
    @Visitor233 可以试一下高精度,之前识别医疗单据低精度 GG,高精度很满意。而且感觉整图全文识别和切割后再识别精度也不一样。
    Gathaly
        24
    Gathaly  
       2020-09-19 06:42:15 +08:00
    v2 真的变了,全部都调包侠....
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2848 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 15:21 · PVG 23:21 · LAX 08:21 · JFK 11:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.