xkeyC
0.01D
V2EX  ›  Local LLM

开发了个本地实时字幕 (Whisper + LLM api ) 软件,开源

  •  
  •   xkeyC · Mar 15, 2025 · 2111 views
    This topic created in 442 days ago, the information mentioned may be changed or developed.

    仓库地址: https://github.com/xkeyC/fl_caption

    下载地址: https://github.com/xkeyC/fl_caption/releases

    使用 Flutter + Rust (candle 推理框架)

    4b0c99577ac9e13589d47ed29b37caeb.png

    目前仅支持 Windows 端,建议使用 Nvidia 显卡配合 cuda 加速。 实时字幕对延迟要求比较高,建议使用 ollama 、vllm 、llm studio 等本地 llm api ,云端若延迟比较低也可以考虑(比较费钱)。

    目前仅在 RTX4090 上测试 large-v3_q4k 模型,12 秒的语音数据 基本在 1 秒内处理完毕。配合 14b 模型,显存占用大约是 16.3 GB ,低于此显存的建议选择更小的 llm 模型。

    2 replies    2025-03-17 10:52:10 +08:00
    hoseynwn
        1
    hoseynwn  
       Mar 17, 2025
    你好,我也想实现识别所有电脑播放的语音到文字.请问我运行后还需要配置什么吗?whisper 的模型下载了 largev3q4k 的了,保存设置后提示 wait for whisper 和 not notconfig llm.
    xkeyC
        2
    xkeyC  
    OP
       Mar 17, 2025
    @hoseynwn 见首页 README 里的常见问题
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2885 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 08:43 · PVG 16:43 · LAX 01:43 · JFK 04:43
    ♥ Do have faith in what you're doing.