clockwork1122
V2EX  ›  问与答

提取音频或者视频为文字信息有什么好办法吗?

  •  
  •   clockwork1122 · Sep 8, 2023 · 3366 views
    This topic created in 977 days ago, the information mentioned may be changed or developed.

    平时比较喜欢听一些播客或者是看些知识型的视频想记录文字,是否能有工具满足两个场景。

    1. 边听(看)边输出文字
    2. 输入音频或者视频链接,自动输出文本。 (现在同传或者是 AI 字幕都很成熟,有现成工具还是需要调大厂的 API 自己实现呢
    10 replies    2025-02-18 14:35:41 +08:00
    qquantt
        1
    qquantt  
       Sep 8, 2023
    提取音频或视频为文字信息,通常被称为“语音识别”或“自动语音转录”。以下是一些常用的方法和工具:

    专业转录服务:有些公司提供专业的转录服务,如 Rev 和 TranscribeMe 。这些服务通常提供高精度的转录,但可能需要支付费用。

    自动转录软件:

    1. Google Cloud Speech-to-Text:这是一个基于云的 API ,可以将音频和视频转换为文字。
    2. IBM Watson Speech to Text:IBM 的语音识别服务也提供了类似的功能。
    3. Amazon Transcribe:Amazon 的自动语音转录服务。
    桌面软件:如 Dragon NaturallySpeaking ,它是一个语音识别软件,可以将说话的内容转化为文字。

    免费工具:

    1. YouTube:你可以上传视频到 YouTube ,然后开启自动生成字幕功能。之后,你可以下载这些字幕作为文本文件。
    2. Audacity:这是一个免费的音频编辑软件,它有一些插件可以进行简单的语音识别。
    3. 手机应用:有些手机应用如 Otter.ai ,可以实时转录会议或对话。

    4. 专用硬件:如专业的数字录音笔,有些模型带有自动转录功能。科大讯飞的耳机可以。

    5. 开源工具:如 CMU Sphinx ,这是一个开源的语音识别系统,适合于那些希望自定义或集成到自己的应用中的开发者。

    选择哪种方法取决于你的需求、预算和所需的准确性。对于正式的商业或法律文件,可能需要专业的转录服务以确保准确性。而对于日常使用或草稿,自动转录工具或应用可能已经足够了。
    kdwnil
        2
    kdwnil  
       Sep 8, 2023 via Android   ❤️ 1
    看起来 op 的需求是语音转文字?有个东西叫 openai/whisper ,我记得前段时间有 v2 老哥分享过基于这玩意做的工具
    Andim
        3
    Andim  
       Sep 9, 2023 via iPhone
    @kdwnil 中文错误率太高 正确率可能也就 80%多
    fyq
        4
    fyq  
       Sep 9, 2023   ❤️ 1
    和你的诉求稍微有点点出入:
    https://github.com/raryelcostasouza/pyTranscriber
    可以将你要的音视频转为 mp3 后导入得到文本
    ZeroW
        5
    ZeroW  
       Sep 9, 2023 via iPhone
    通义听悟挺好用的
    jancing
        6
    jancing  
       Sep 9, 2023   ❤️ 1
    1. Microsoft 365 Word
    2. Adobe Speech to Text in Premiere Pro
    rpish
        7
    rpish  
       Sep 9, 2023   ❤️ 1
    飞书妙记
    unii23i
        8
    unii23i  
       Sep 9, 2023
    clockwork1122
        9
    clockwork1122  
    OP
       Sep 11, 2023
    @jancing 感谢我试试
    pimou
        10
    pimou  
       Feb 18, 2025
    自荐下。 DuRT 是 mac 上的实时语音识别和翻译软件。
    https://apps.apple.com/us/app/durt/id6736675809?mt=12
    目前功能:1. 实时识别音频(支持系统音频和麦克风),转成文本 (支持几十种语言)
    2. 实时将文本翻译成需要的语言 (支持几十种语言)
    3. 保存音频、保存文本。
    识别使用的是本地模型,不需要使用云端的 API 。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3231 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 104ms · UTC 14:02 · PVG 22:02 · LAX 07:02 · JFK 10:02
    ♥ Do have faith in what you're doing.