V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SeleiXi
V2EX  ›  程序员

想问下语音大模型的前后端技术选型,以及采用什么通讯协议比较好?

  •  2
     
  •   SeleiXi · 12 天前 · 1377 次点击
    最近需要做一个语音大模型( voice in voice out 的)的后端,需求是要低延迟传输(要实现下面链接的 GPT-4o voice 这种语音通话的功能,所以对延迟非常敏感),想问下前端/后端/app 端的技术选型以及采用什么通讯协议会比较好?
    10 条回复    2024-11-11 10:34:07 +08:00
    GeekGao
        1
    GeekGao  
       12 天前
    如果考虑招人较容易的话,可以尝试:

    前端:React.js(组件化、虚拟 DOM)
    后端:Node.js(非阻塞 IO 、高并发)
    通信协议:WebSocket/WebRTC
    xiuming
        2
    xiuming  
       12 天前
    WEB:React.js Vue.js
    App:原生
    后端:golang
    通信协议: http3 、kcp 、WebRTC
    mmdsun
        3
    mmdsun  
       12 天前
    换汤不换药,这种你参考支持音视频通话的 IM 系统就行,基本都是低延时实时通信。
    纯自己搞就 netty 写 im 那块的 + 音视频的推流服务器。
    firechat
        4
    firechat  
       11 天前
    可以考虑用我们的这个 https://github.com/wildfirechat/ServerVoipDemo 项目,已经实现了服务器和客户端打音视频电话,你们做好音视频内容和对接可以快速实现视频上类似的功能。
    COW
        5
    COW  
       11 天前
    服务端:Java ( Netty )/Go
    PC 端:Electron (跨平台)
    移动端:原生
    协议:WebRTC
    SeleiXi
        6
    SeleiXi  
    OP
       11 天前
    @xiuming
    @COW
    go 的话具体用哪些技术栈比较好呢
    COW
        7
    COW  
       11 天前 via Android
    @SeleiXi golang 天生支持高并发,原生的 net 库应该就支持,所以不需要像 Java 哪样再搞个 Netty ,不过你要处理 WebSocket/WebRTC 协议的话,应该还需要额外的库支持(仅供参考,没有用 golang 实践过)
    Leon6868
        8
    Leon6868  
       10 天前
    我最近正好也在做这个,经过大量选型后我认为最方便的还是 ws+mp3 切片,至少语音延迟在传输上能达到 110ms 的延迟。

    感兴趣的话欢迎深入交流,我的邮箱是 cXRiYm9zajVzQG1vem1haWwuY29t
    Leon6868
        9
    Leon6868  
       10 天前
    @Leon6868 #8 其实 4o 的延迟也不低,而且主要在于 VAD 、模型推理上
    SeleiXi
        10
    SeleiXi  
    OP
       10 天前
    @Leon6868 嗯嗯,发了邮件了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4715 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 09:52 · PVG 17:52 · LAX 01:52 · JFK 04:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.