V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SuperMaskv
V2EX  ›  机器学习

想请教一下各位,这个 Demo 展示的文档理解的功能是怎么实现的?

  •  
  •   SuperMaskv · 110 天前 · 584 次点击
    这是一个创建于 110 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Demo

    https://mp.weixin.qq.com/s/fZLibqedhrAUOpdyl0c4Ow

    Demo 流程

    这个 Demo 演示的大致处理流程是这样的:

    1. 先上传一份 demo 文件
    2. 完成一次框选,著录操作
    3. 上传一堆文件进行模型训练
    4. 后续上传的文件就可以自动著录了

    疑问

    1. 对于这种固定版式的文档,是不是固定的文本框 bbox+OCR 就可以完成这样效果,为什么要加入机器学习的步骤呢?
    2. 如果机器学习的步骤可以帮助定位关键信息的位置,这个是用什么算法实现的?
    3. 为什么只标注一份就可以进行机器学习,有什么数据增广之类的技巧吗?

    非常感谢大家能点进来看,有想法可以指导我一下就更好了

    4 条回复    2024-01-09 09:32:24 +08:00
    dier
        1
    dier  
       110 天前
    我把视频看了一遍,我发现你理解的流程其实跟视频中有偏差。
    你理解的流程第三步是上传了多个文件进行训练,但我看视频中并没有上传多个文件用来进行训练。
    我甚至都怀疑语音讲解中提到的所谓“自动训练”只不过是他们的话术。可能这个加载的过程只是后台在基于前面框选的位置自动生成 OCR 识别后的处理脚本或程序。
    因为文件内容格式基本一致,所以第一份标识完成之后,后面所有的文件都可以套用前面“自动训练”的程序来识别。

    以上我的看法都是我根据视频内容推断的。不对准确性做保证
    SuperMaskv
        2
    SuperMaskv  
    OP
       110 天前
    @dier #1 非常感谢你看完了这个视频。
    我为什么说有训练的过程是因为这些文档大多是扫描出来的,数据质量受到扫描的影响,可能会有旋转,偏移之类的问题。我查了一些资料,是不是可以用目标检测来定位,训练数据的话从用户标注的这一份通过平移旋转来增广,不知道这样可不可行。
    dier
        3
    dier  
       109 天前
    @SuperMaskv 我不是 OCR 识别方面的技术人员,但我用过这种产品,之前用阿里云的车辆 VIN 码识别 OCR 时,我就发现照片中的内容不论是平、竖、斜。都可以识别,只要图片篇幅不是大得离谱,它也能在较大范围的图片中成功识别出其中的 VIN 码。所以这种识别算法肯定对选取的范围也会做一定的调整,用于适应扫描过程中纸张位置不固定导致的偏移。就像人在框选时一样,不会精确到字符的边缘,而是会尽量框大一点。
    SuperMaskv
        4
    SuperMaskv  
    OP
       109 天前
    @dier #3 铭牌这一类的会有一些图像的预处理来定位,比如膨胀拉伸定位边框,我现在的场景不只是表格而已,这些方法不太适用。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   973 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:23 · PVG 03:23 · LAX 12:23 · JFK 15:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.