V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Shawn5
V2EX  ›  商业模式

如果用 AI 做有声阅读,有没有搞头?

  •  
  •   Shawn5 · 8 天前 · 1394 次点击
    就是根据文本内容,分角色,分场景,分感情的进行朗读,类似真人朗读的那种,这种目前 AI 的技术能够支持吗???有没有搞头??
    32 条回复    2024-12-14 11:13:03 +08:00
    z7356995
        1
    z7356995  
       8 天前
    目的是什么,再有感情也比不过电影
    julyclyde
        2
    julyclyde  
       8 天前
    不就 TTS 么,咋就 AI 了?
    SantinoSong
        3
    SantinoSong  
       8 天前
    晚了, 豆包已经在做了
    Shawn5
        4
    Shawn5  
    OP
       8 天前
    @z7356995 就是有声小说,提高用户体验,现在的有声小说都是平白直叙的
    Shawn5
        5
    Shawn5  
    OP
       8 天前
    @julyclyde 的确需要用到 TTS ,但是 TTS ,貌似没感情啊,读出来的小说,太直白了,没有波动,现在还好,能分出男女了,以前连男女都不分
    Shawn5
        6
    Shawn5  
    OP
       8 天前
    @SantinoSong 啊,这样的吗,我去看看,哈哈哈哈,之前有搜到,火山语音在做,但是搜了下,貌似没有这个应用,不知道是不是合并到番茄里面进去了
    odirus
        7
    odirus  
       8 天前
    这块字节做得很好了吧,有声小说重点还是落在 “小说” 上面,内容吸引人才行
    chairuosen
        8
    chairuosen  
       8 天前
    最好是外挂,一个录屏软件 OCR+TTS ,可以不依赖文字内容的版权
    love060701
        9
    love060701  
       8 天前
    技术是支持的,看我用 GPT-4o 实现的效果

    1 、模仿老友记的珍妮丝和武林外传的佟掌柜: https://x.com/Gorden_Sun/status/1838895315514204375

    2 、唱生日歌: https://x.com/Gorden_Sun/status/1839170329262047682

    3 、说情话: https://x.com/Gorden_Sun/status/1839252597687071212
    poplar50
        10
    poplar50  
       8 天前 via Android
    @Shawn5 试过番茄小说阅读吗? 微软 edge tts 也行,都是多角色朗读的。
    SylarQAQ
        11
    SylarQAQ  
       8 天前
    可以了解一下 mutliTTS 然后引入 TTS 源后就可以了,我前段时间折腾了一下,虽然抑扬顿挫都有了,但是缺乏了一点儿场景对应的语气,不如真人说书的那种感觉
    Shawn5
        12
    Shawn5  
    OP
       8 天前
    @poplar50 昨晚上试了一下,能分角色,但是语气不会变化,不会根据情节或者文字改变,比如愤怒,高兴等等,都是平白直叙的,跟真人说书差距还是有的
    Shawn5
        13
    Shawn5  
    OP
       8 天前
    @SylarQAQ 谢谢,我也去试试,我刚百度了下,只有一个下载地址,但感觉又不像,github 上也没搜到,能告知下,是在哪里下载吗?
    xz410236056
        14
    xz410236056  
       8 天前
    @Shawn5 #5 你抖音搜小说,做得很好了
    z7356995
        15
    z7356995  
       8 天前
    如果要我为多模态语音付费的话,我觉得应该是练习口语中的语音纠正,你这样发音不对,正确的这个发音是
    clemente
        16
    clemente  
       8 天前
    套一个模型的事 ....
    Shawn5
        17
    Shawn5  
    OP
       8 天前
    @clemente 有没有介绍的模型,感谢!!!
    pkoukk
        18
    pkoukk  
       8 天前   ❤️ 1
    没搞头,微信阅读、喜马拉雅、起点 等已经大规模开始搞了。
    这个事情最重要的不是 AI ,而是这些内容的版权,没内容你找个 AI 读 1 2 3 4 5 6 7 啊?
    liu731
        19
    liu731  
       8 天前
    https://speech.microsoft.com

    没搞头啊,兄弟。这网站是个文员都能玩。
    Shawn5
        20
    Shawn5  
    OP
       8 天前
    @pkoukk 哈哈哈,的确,就是不知道有没有其他 AI 能落地的应用,三四个人小团队能够搞定的那种
    zoharSoul
        21
    zoharSoul  
       8 天前
    成本很高吧
    wyd011011daniel
        22
    wyd011011daniel  
       8 天前
    https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice#use-speaking-styles-and-roles

    你说的就是用大语言模型生成 SSML 标记过后的文本内容

    看你是要实时还是预先训练好
    实时的话,可以做个阅读器让用户自己导入小说。
    起步等待要久一点 然后上下文联系可能会出错。
    预训练的话版权问题基本只能大公司做

    我自己用阅读/爱阅记 azure tts 听书很久了,也挺听喜马拉雅的有声书。

    喜马拉雅真人配的有声书(哈利波特系列/三体系列)除了情感以外 还会模仿角色音色,配音功夫下的很多,而且还有环境配乐和各种实时动作的配乐。

    现在 ai 配环境声不知道做的怎么样。感觉可以朝着对标这种有声剧想想办法。
    lance07
        23
    lance07  
       8 天前
    番茄, 讯飞, 微信读书一堆应用都有, 目前我听着最舒服的是微信
    wyd011011daniel
        24
    wyd011011daniel  
       8 天前
    @wyd011011daniel 不过我是不太报希望,因为这种听的东西,人对错误的容忍程度应该不是那么高的。譬如男女声音,不同情感。如果配错了,人会很敏感的察觉到,对主要受众来说会很出戏。 不像图片那么好糊弄人
    Shawn5
        25
    Shawn5  
    OP
       8 天前
    @wyd011011daniel 受教了!!!
    PaulSamuelson
        26
    PaulSamuelson  
       8 天前
    除非,除非,这个 AI 能把某些小说里的:呕,呕,阿,阿,读出感情,读出力量来。
    否则,你这个 AI 没有壁垒,同质化严重。
    Libby520
        27
    Libby520  
       8 天前
    步非烟
    murmur
        28
    murmur  
       8 天前
    你都入场晚了,现在 b 站营销号 抖音大部分都是 AI 配音
    a67793581
        29
    a67793581  
       8 天前
    @Libby520 靠 出戏了
    Shawn5
        30
    Shawn5  
    OP
       8 天前
    @PaulSamuelson 我好像悟了
    yufeng0681
        31
    yufeng0681  
       8 天前
    以后应该是起步 AI 语音做有声阅读。
    如果内容有火的趋势(某些指标达标了),马上就会上真人来重新录制。 把这个作品做到最佳体验。

    或者是优质内容,起步就是真人录制,达到最佳效果。
    bigjie910
        32
    bigjie910  
       7 天前
    可以参考卢卡故事机得方案。 摄像头识别书本内容,需要手动翻页。 不过他这个目前都是录制好的内容, 很多新书或者杂志都识别不到。 可以尝试下这方面得
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1520 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:00 · PVG 01:00 · LAX 09:00 · JFK 12:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.