1
subtleworks 10 天前
请问挂 VPN 后可以调用这个 api 吗
|
2
jianchang512 OP 国内 api 似乎都不支持国外 ip 访问
|
3
mumbler 10 天前
字幕用 whisper 从音频提取不是更好么
|
4
jianchang512 OP @mumbler 当然更好,也更简单,不过有些场景下希望提取硬字幕,通常在语音和字幕不是同一种语言时,例如某些国外电影资源语音非中文,但配有中文硬字幕时
|
5
syaoranex 7 天前
1. 1 秒间隔肯定会漏字幕。因为有一小部分字幕的持续时间不足 1 秒。现阶段成熟的制品都是用 CV 来做字幕帧判断。
2. 从图中来看,你这个没有换行呀。OCR 的输出没有换行,最终字幕到生产上是肯定用不了的。 3. sentence-transformers 没必要,如果第一步就用 CV 来做的话。当然去重有很多办法,没必要在本地跑模型,简单的字符串相似度检测都有比较好的效果,杀鸡没必要用牛刀。 现在硬字幕转 SRT 的最佳流程还是 CV 截取+传统多个模型共同识别+多模型大模型审校。时间戳和转换出来的效果都很不错。 |