V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pxiphx891
V2EX  ›  分享发现

测试了几个 OCR

  •  
  •   pxiphx891 · 9 天前 · 2044 次点击
    今天下载了一个 DVD 视频,字幕格式为 dvd_subtitle ,字幕锯齿感严重,因此想利用 OCR 把字幕识别成文字。
    于是我在 github 找到了这么一个项目: https://github.com/vincrichard/VobSub-ML-OCR ,运行之后,发现自带的 easyocr 效果不太好,所以就又找了几个 ocr 的项目测试。
    这是原图:


    这是使用飞桨 PP-OCRv4 的效果(测试地址: https://aistudio.baidu.com/community/app/91660/webUI ):
    高效率模型方案


    高精度模型方案


    这是使用微信提取出来的 OCR 测试的效果(来源于 https://www.v2ex.com/t/1120897 ):
    "ocr_response": [
    {
    "bottom": 391.0640563964844,
    "left": 199.8789825439453,
    "rate": 0.9488778710365295,
    "right": 513.5093383789062,
    "text": "那麽我无论如何",
    "top": 349.4739685058594
    },
    {
    "bottom": 429.15313720703125,
    "left": 220.19375610351562,
    "rate": 0.9376645088195801,
    "right": 492.0656433105469,
    "text": "都要噌试一下",
    "top": 392.0796813964844
    }
    ]

    这是使用阿里云百炼(地址: https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct )通义千问 OCR qwen-vl-ocr-latest 识别的结果:
    20 条回复    2025-04-06 22:16:16 +08:00
    Doraemontree
        1
    Doraemontree  
       9 天前
    是不是繁体的不好识别
    Lucoie
        2
    Lucoie  
       9 天前
    综合哪个好用?
    pxiphx891
        3
    pxiphx891  
    OP
       9 天前
    @Lucoie 通义千问 OCR 和微信 OCR 效果都很好,飞桨不行
    docx
        4
    docx  
       9 天前 via iPhone
    如果是简体呢
    pxiphx891
        5
    pxiphx891  
    OP
       9 天前
    @docx 如果是简体,所有模型都是秒杀
    ha1o
        6
    ha1o  
       9 天前
    想问下,假设识别率 100%,后续是要把原字幕完全替换一遍生成新字幕吗?那岂不是要输入加载原字幕的视频?
    SakuraYuki
        7
    SakuraYuki  
       9 天前
    苹果自带的这个好像还行
    pxiphx891
        8
    pxiphx891  
    OP
       9 天前
    @SakuraYuki 这是什么软件?
    pxiphx891
        9
    pxiphx891  
    OP
       9 天前
    @ha1o VobSub-ML-OCR 这个项目是可以生成 srt 的,可以了解一下
    BluePadge
        10
    BluePadge  
       9 天前

    Google AI Studio 中的 Gemini pro 2.5 识别结果
    PRStarDust
        11
    PRStarDust  
       9 天前
    试了一下 RapidOCR-API ,直接跳过了繁体哈哈哈
    ```json
    {
    "0": {
    "dt_boxes": [
    [
    206,
    354
    ],
    [
    513,
    355
    ],
    [
    513,
    392
    ],
    [
    206,
    390
    ]
    ],
    "rec_txt": "那我无论如何",
    "score": "0.9971"
    },
    "1": {
    "dt_boxes": [
    [
    228,
    394
    ],
    [
    490,
    394
    ],
    [
    490,
    430
    ],
    [
    228,
    430
    ]
    ],
    "rec_txt": "都要试一下",
    "score": "0.9877"
    }
    }
    ```
    rqYzyAced2NbD8fw
        12
    rqYzyAced2NbD8fw  
       8 天前
    要不是现在的 vision llm 无法返回每个字的坐标,传统 OCR 估计直接被淘汰了
    因为就算是人眼,识别文字也要靠上下文。比方说有些人可能会把蘿蔔看成葡萄。但是如果我说,“我要用蘿蔔插你屁眼囉”,那这两个字是什么一眼就明白了
    icemaple
        13
    icemaple  
       8 天前
    一直在用 abbyy
    SakuraYuki
        14
    SakuraYuki  
       8 天前
    @pxiphx891 #8 bob ,调用自带的 ocr 接口
    bigshawn
        15
    bigshawn  
       8 天前
    现在 OCR 我都丢给 Gemini ,我儿子小学 5 年级,字很差的 400 字作文 OCR 就错了 3 个字
    obeyatonce
        16
    obeyatonce  
       7 天前
    api 调用百度高精度 ocr 的识别结果:那麽我无论如何都要嘈试一下
    zggsong
        17
    zggsong  
       7 天前


    微信 OCR 还是很好用的
    lozzow
        18
    lozzow  
       6 天前
    可以尝试拆字后识别再重新合并,会有包不错的提升
    iorilu
        19
    iorilu  
       4 天前
    @zggsong 这是什么项目阿, 自己部署的吗, 求分享
    zggsong
        20
    zggsong  
       4 天前 via iPhone
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1098 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:08 · PVG 03:08 · LAX 12:08 · JFK 15:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.