V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
ViggoSite
V2EX  ›  分享创造

Golang 练手项目,一个可以识别视频语音自动生成字幕 SRT 文件的开源 Windows 软件,快速做字幕!

  •  3
     
  •   ViggoSite ·
    wxbool · 2019-12-09 14:27:12 +08:00 · 10279 次点击
    这是一个创建于 1812 天前的主题,其中的信息可能已经有所发展或是发生改变。

    VideoSrt 简介

    VideoSrt 是用 Golang语言,基于 lxn/walk Windows-GUI 工具包开发。

    这是一个可以识别视频语音自动生成字幕 SRT 文件的开源软件工具。

    适用于快速、批量的为视频创建中 /英文字幕文件的业务场景。

    本项目使用了阿里云的OSS 对象存储录音文件识别的相关业务接口。

    CLI (命令行)版本:https://github.com/wxbool/video-srt

    项目地址:

    界面预览

    界面预览

    优势

    • 使用阿里云语音识别接口,准确度高,标准普通话 /英语识别率 95%以上
    • 视频识别无需上传原视频,方便且节省时间
    • 支持多任务多文件并发处理
    • 支持视频、音频常见多种格式文件
    • 支持输出字幕文件、普通文本两种类型

    Download

    下载地址:(v0.1.3)

    你也可以到 release 页面下载其他版本

    V 友专属测试试用版(v0.1.3)
    • 内置了个人提供的阿里云接口密钥,无需自己再配置(可直接使用)
    • 由于阿里云免费试用接口限制,每天仅有 2 小时识别时长
    • 下载地址:点击下载

    注意事项

    • 软件目录下的 data目录为数据存储目录,请勿删除。否则可能会导致配置丢失
    • 项目使用了 ffmpeg 依赖,除非您的电脑已经安装了ffmpeg环境,否则请下载包含ffmpeg依赖的软件包

    FAQ

    • 软件支持哪些语言?
      • 视频字幕文本识别的核心服务是由阿里云录音文件识别业务提供的接口进行的,设置好对应的语音引擎,可以支持汉语普通话、方言、欧美英语等语言
    • 如何开通阿里云的相关服务?
      • 你需要有一个阿里云账号
      • 开通 阿里云 OSS 对象存储 阿里云智能语音交互 业务
      • OSS 对象存储 控制台创建一个存储空间( Bucket )(读写权限设置为公共读
      • 智能语音交互 控制台创建一个项目(根据使用场景选择识别语言以及偏好等)
      • 关于这块操作,后续会出一个视频教程,敬请关注。
    第 1 条附言  ·  2019-12-10 07:57:14 +08:00
    上面的项目地址放错了,这里重新放一下。

    项目地址:
    * [https://github.com/wxbool/video-srt-windows]( https://github.com/wxbool/video-srt-windows)
    * [https://github.com/wxbool/video-srt]( https://github.com/wxbool/video-srt)

    觉得不错的话,就赏个 star 吧 😌
    第 2 条附言  ·  2019-12-10 16:37:29 +08:00
    v0.1.5 优化英文字幕文本分段处理;支持mkv文件
    下载地址:(v0.1.5)
    V 友专属测试试用版(v0.1.5)
    第 3 条附言  ·  2019-12-12 14:17:29 +08:00
    v0.1.6 修复英文字幕分段处理Bug
    下载地址:(v0.1.6)
    V友专属测试试用版(v0.1.6)
    第 4 条附言  ·  2019-12-18 08:56:27 +08:00
    v0.2.0
    • 1.支持字幕中英互译、输出双语字幕(百度翻译接口)
    • 2.支持设置输出单条音轨字幕文件
    下载地址:(v0.2.0)
    40 条回复    2019-12-13 10:26:51 +08:00
    generalbao
        1
    generalbao  
       2019-12-09 15:31:09 +08:00   ❤️ 13
    我帮我朋友问问 可以识别日语吗
    1O
        2
    1O  
       2019-12-09 15:34:58 +08:00
    @generalbao 还没学会吗?
    ViggoSite
        3
    ViggoSite  
    OP
       2019-12-09 15:40:17 +08:00
    @generalbao 告诉那位盆友,国内目前的语音供应商不支持日文识别。 ( ̄△ ̄;)
    fanpei0121
        4
    fanpei0121  
       2019-12-09 16:22:13 +08:00
    @generalbao 日文是刚需,楼主可以考虑一下
    axwz88
        5
    axwz88  
       2019-12-09 16:38:21 +08:00 via Android   ❤️ 1
    同求日语识别,我看了很多日本电影我很想知道他们说什么
    wlzcool
        6
    wlzcool  
       2019-12-09 16:41:17 +08:00   ❤️ 3
    @generalbao 一共就那么几句还没学会么?
    VWWWWWWW
        7
    VWWWWWWW  
       2019-12-09 17:00:50 +08:00
    666
    我想求个解析视频内置字幕,导出 srt 的功能
    因为有些字幕组现在压制的画质太烂了,而且还时不时画面中间出广告…
    不知道 LZ 能不能支持下 😂
    ViggoSite
        8
    ViggoSite  
    OP
       2019-12-09 17:22:48 +08:00
    @VWWWWWWW emm,我可以找时间尝试下,你可以加我 QQ,关注后续的情况~~

    MjAxMjIxMDgxMg==
    ZombieMisaka
        9
    ZombieMisaka  
       2019-12-09 17:26:38 +08:00
    @generalbao #1 你这个朋友是不是你自己.jpg
    VWWWWWWW
        10
    VWWWWWWW  
       2019-12-09 17:40:37 +08:00
    @ViggoSite 喵,不是 developer 所以不知道这串字符怎么转成数字…… 是 32 位转 10 进制吗?试了下也不是……
    ViggoSite
        11
    ViggoSite  
    OP
       2019-12-09 17:45:12 +08:00
    @VWWWWWWW 百度搜索 base64 解密
    William911
        12
    William911  
       2019-12-09 18:52:47 +08:00
    2012210812
    William911
        13
    William911  
       2019-12-09 18:53:20 +08:00
    @William911 删除不了了
    ViggoSite
        14
    ViggoSite  
    OP
       2019-12-09 19:07:50 +08:00
    @William911 你有毒 。。。
    zhangneww
        15
    zhangneww  
       2019-12-09 19:21:19 +08:00
    @ViggoSite #14 涉及隐私问问 @Livid 能不能删
    solaro
        16
    solaro  
       2019-12-09 21:43:28 +08:00
    文件不能大,一大程序就崩溃
    ViggoSite
        17
    ViggoSite  
    OP
       2019-12-09 22:14:26 +08:00 via Android
    @solaro 你是多大的文件啊?可以加我上面 QQ 详细说下问题吗?
    azh7138m
        18
    azh7138m  
       2019-12-09 23:05:01 +08:00 via Android
    @generalbao 我朋友说 听不懂也不影响观看
    ifwangs
        19
    ifwangs  
       2019-12-09 23:49:57 +08:00 via Android
    @generalbao 无中生友 →_→
    hfutzj
        20
    hfutzj  
       2019-12-10 00:07:20 +08:00
    之前看考研视频时有过想法,拿来试一下
    ViggoSite
        21
    ViggoSite  
    OP
       2019-12-10 00:15:13 +08:00 via Android
    @hfutzj 有遇到问题的话,可以联系上面我的 QQ 处理
    octobersnow
        22
    octobersnow  
       2019-12-10 00:39:25 +08:00 via iPhone
    想问一下,是如何断句的,然后把文字和声音对上
    WebKit
        23
    WebKit  
       2019-12-10 01:40:15 +08:00 via Android
    @generalbao 无中生友😊
    manami
        24
    manami  
       2019-12-10 07:22:30 +08:00 via Android
    能识别日韩语言就好了
    darksword21
        25
    darksword21  
       2019-12-10 07:31:37 +08:00 via iPhone
    @generalbao 你说的朋友是不是你自己
    ViggoSite
        26
    ViggoSite  
    OP
       2019-12-10 07:34:53 +08:00 via Android
    @octobersnow 不是已经开源了嘛😂
    Buges
        27
    Buges  
       2019-12-10 08:58:09 +08:00 via Android
    楼上说的挺有道理,这种东西适配未掌握的小众语言的意义要大一些。
    对于观众掌握的语言(中文和英语)以现在机器识别的效果作用不太大,能识别的你也能听清,人听不清的识别效果也不太好。
    NoirStrike
        28
    NoirStrike  
       2019-12-10 08:59:48 +08:00
    日语+1。。。
    有 bd 没字幕太酸爽了
    ViggoSite
        29
    ViggoSite  
    OP
       2019-12-10 09:05:08 +08:00
    @Buges 小众语言的语音识别提供商目前很少。

    目前这款软件的实际意义主要是用于剪辑视频时 “快速生成视频字幕”,而不用手打字幕对时间轴
    hellojay
        30
    hellojay  
       2019-12-10 09:12:13 +08:00
    @Buges 自己剪视频的时候就太有用了
    Buges
        31
    Buges  
       2019-12-10 09:26:31 +08:00 via Android
    @ViggoSite @hellojay
    确实,没考虑到这种需求。
    不过提供商的问题,应该找对应地区的吧。像日语这种他们本国肯定有的,或者一些开源的训练好的模型也可以用。
    ViggoSite
        32
    ViggoSite  
    OP
       2019-12-10 09:30:31 +08:00
    @Buges 嗯,小语种其实我也想做,找时间我去好好研究研究。
    fuwuqiyun
        33
    fuwuqiyun  
       2019-12-11 13:44:51 +08:00
    请问这个哪里有测试的啊
    ViggoSite
        34
    ViggoSite  
    OP
       2019-12-11 19:38:03 +08:00
    @fuwuqiyun 附言有发最新的啊,你上去找找就看到了 ~

    “V 友专属测试试用版(v0.1.5)”
    yangyuhan12138
        35
    yangyuhan12138  
       2019-12-12 16:22:41 +08:00
    同求日语 日语刚需
    EIlenZe
        36
    EIlenZe  
       2019-12-13 01:03:45 +08:00
    谢谢制作
    明天试试
    andyhuzhill
        37
    andyhuzhill  
       2019-12-13 09:42:38 +08:00
    好像百度云的语音识别没有时长限制
    wsseo
        38
    wsseo  
       2019-12-13 09:56:35 +08:00
    有一个场景,在大量视频中搜素某个关键字,比如在某个主播的直播中搜索“年龄‘相关的
    ViggoSite
        39
    ViggoSite  
    OP
       2019-12-13 10:24:50 +08:00
    @andyhuzhill 有的,语音识别供应商,就没有哪个是免费的,只是大部分一般会有免费额度而已。
    ViggoSite
        40
    ViggoSite  
    OP
       2019-12-13 10:26:51 +08:00
    @wsseo 理论上可以是实现,不过目前的识别技术,如果说话的背景太嘈杂,识别率还是会很低
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 07:22 · PVG 15:22 · LAX 23:22 · JFK 02:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.