[分享] 一款高效的音频/视频转文字工具——语音识别生成字幕

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 850 天前的主题，其中的信息可能已经有所发展或是发生改变。

以下内容由 chatgpt 撰写

大家好，我在这里分享一个我最近发现（ gang bian de ）的非常实用的工具——音频 /视频转文字工具。

这个工具可以帮助你把音频或者视频文件转化为文本，是非常好用的语音识别工具。最令人振奋的是，它不仅可以自动识别语言，而且可以生成多种格式的字幕文本。

主页： https://whisper.myfastools.com/

功能介绍：

音频转文字
识别语言
生成多种格式的字幕文本（ TXT 、SRT 、JSON 、TSV 、VTT ）
使用流程：

上传你的音频或者视频文件，系统会生成一个提取码显示在网页上，你可以用这个提取码来提取你的识别结果。识别结果包含了多种格式的字幕文本。

这是一段以英语演讲识别样例：

[点击这里下载 TXT 格式的结果文件]

https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.txt
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.srt
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.json
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.tsv
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.vtt
替换后缀即可下载（ TXT 、SRT 、JSON 、TSV 、VTT ）中的其他格式

希望这个工具对大家有所帮助。如果在使用过程中遇到问题，或者有什么改进的意见，都欢迎在下面留言。我会及时进行回复和改进。期待你们的反馈！

TODO：修改 UI ，添加登录功能，添加使用 GPU 的工作节点，显示实时进度，显示列队

第 1 条附言 · 2023-06-01 14:59:30 +08:00

2023/6/1 儿童节更新

添加语言选择
添加质量/速度偏好选择

目前默认为速度，如果选质量可能暂时不会处理。预计本周更新高质量识别。

儿童节图片

第 2 条附言 · 2024-07-27 02:15:04 +08:00

有人识别了大量违规信息，并同过网站提供结果内容下载，但是我没有时间处理这类违规信息，直接把网站停了。

识别

字幕

格式

音频

13 条回复 • 2024-07-27 02:14:48 +08:00

shuxge1223

2023-05-30 11:19:30 +08:00

准确率咋样啊

dmitsc

2023-05-30 11:28:08 +08:00

@shuxge1223
准确率很好了，你可以试一下

不过现在是没上好的硬件，可能会慢，大概几十秒到几分钟不等。

等我写完分布式处理之后，应该可以在三十秒内处理完大多数任务。

cxumol

2023-05-30 13:51:19 +08:00

测试音源 https://www.bilibili.com/video/BV11g4y1c7po
结果

JerryLin

2023-05-30 14:17:05 +08:00

看到 whisper 就想到 OpenAI 提供的 whisper 接口，楼主是使用 OpenAI 提供的吗？

AMZsowhat

2023-05-30 17:07:15 +08:00

用几条中文人声语句测试了下,发声能准确识别,但是没有对上下文语意的分析,所以对于[在\再] [借\接]等词汇无法进行准确辨析

dmitsc

2023-05-30 21:09:44 +08:00

@JerryLin 是的，使用了 OpenAI 的 Whisper 作为语音识别端。

dmitsc

2023-05-30 21:11:25 +08:00

@AMZsowhat 目前由于硬件条件限制，采用了轻量模型。后续会采购硬件改用大模型，在那之后就会由上下文语意匹配的能力。

dmitsc

2023-06-01 15:01:09 +08:00

@cxumol 预计本周末上线更高准确率的识别能力，到时候可以再试一下~

TernenceZhou

2023-08-23 16:44:09 +08:00

你好，目前转文字好像没有弹出提取码
大佬服务还能用吗

TernenceZhou

2023-08-23 16:50:07 +08:00

提取码在左下角，然后提取码下载 auto-speed-70f82c3577358ece19aa70f735fa6bc7
https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-9805069510030683
出现 block status
识别文件没有下载成功

dmitsc

2024-07-26 01:45:17 +08:00

有人识别了大量违规信息，并同过网站提供结果内容下载，但是我没有时间处理这类违规信息，直接把网站停了。

jaylong

2024-07-26 14:06:58 +08:00

有没有本地解决方案？避免隐私问题

dmitsc

2024-07-27 02:14:48 +08:00

@jaylong 有的，可以直接在本地环境中安装 whisper.cpp 或者 python 中的 whisper