V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
829939
V2EX  ›  程序员

基于这个开源小项目,做哪些受欢迎的 ChatGPT 插件模型?

  •  
  •   829939 ·
    LiweiDong · 360 天前 · 3875 次点击
    这是一个创建于 360 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人研二,专业深度学习音频领域研发,去年在校做了一个开源小项目,是关于音频特征提取和分析的,可以针对音频领域的各种业务做原型开发,目前规划的音频领域的研究任务方向:

    1. 智能调音器, 针对吉他弦乐乐器的调音,识别音高和拨动的哪一根琴弦,
    2. 旋律提取,从音乐音频中识别旋律音高轮廓,主要针对人声唱歌主旋律声音的基频提取,
    3. 音轨分离,从音乐音频中分离出人声,钢琴、吉他、鼓、贝斯等多个乐器声音
    4. 和弦估算,识别音乐音频中和弦,和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位,包括起始和持续时间
    5. 钢琴转录,针对钢琴乐器音频的复音识别,确定复音的端点、音高组合、持续时间,转录为 midi 或曲谱
    6. .....

    如果做成 ChatGPT 插件模型哪些会更受欢迎?这些方向应用场景和需求怎么样?
    欢迎大家参与论讨或给出新的方向建议!!! 后续按大家讨论建议汇总, 确认几个研究方向后按优先级逐步开发实现并开源贡献。

    项目地址: https://github.com/libAudioFlux/audioFlux

    55 条回复    2023-04-04 21:58:17 +08:00
    chatWell1
        1
    chatWell1  
       360 天前
    和弦估算吧,我觉得这个应用价值广泛,和 chat 结合后,传音频就能出来和弦进行数据吗?
    829939
        2
    829939  
    OP
       360 天前
    @chatWell1 是的,目前我这个小项目是可以实现这个功能的。chat 这边我还需要看下文档。
    CMLab
        3
    CMLab  
       360 天前
    给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来
    dark009
        4
    dark009  
       360 天前
    我感觉目前的音轨分离方案在处理复杂音乐时效果还不够理想,希望能够有更加准确的算法和模型来解决这个问题
    xbcslzy
        5
    xbcslzy  
       360 天前
    目测新一波炼丹需求要来了
    829939
        6
    829939  
    OP
       360 天前
    @dark009 音轨分离一般常用的做法是频域掩码,最简单的就是二值化掩码,有很多这块定向算法的研究,典型的如 NMF 算法相关的有很多种,很多也取得不错的效果,但效果好的还是使用深度学习训练频域掩码,也是这些年音频领域研究的热点之一。
    829939
        7
    829939  
    OP
       360 天前
    @CMLab 大佬提的这一套能实现下来确实能方便很多音乐学生?
    chatWell1
        8
    chatWell1  
       360 天前
    @xbcslzy 音频音乐领域的盛宴估计要开始了
    chatWell1
        9
    chatWell1  
       360 天前
    @CMLab 厉害,这个能走通,目测能火
    dark009
        10
    dark009  
       360 天前
    @CMLab 这个想法非常棒啊
    ManxCat
        11
    ManxCat  
       360 天前
    音轨分离和和弦估算最受欢迎吧 但是成年人不做选择,我全要
    CMLab
        12
    CMLab  
       360 天前
    @829939 我觉得音乐生成这个业务和方向,是个热点,楼主可以考虑下这个点的研发
    CMLab
        13
    CMLab  
       360 天前
    @ManxCat 成年人,爱音乐的话, 我觉得可能调音器最重要😃
    chatWell1
        14
    chatWell1  
       360 天前
    @829939 @CMLab 加上音频指纹这个模型,估计更好玩
    collinmehle
        15
    collinmehle  
       360 天前
    @CMLab 调音器只针对了部分乐器领域 不够通用
    Aloento
        16
    Aloento  
       360 天前
    玩音乐的表示你这个出来了记得踢我,简直不要太棒
    829939
        17
    829939  
    OP
       360 天前
    @chatWell1 音频指纹确实是不错的想法。这个库可以帮助你实现。两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
    CMLab
        18
    CMLab  
       360 天前
    @collinmehle 音轨分离这些可能对老师或 B 端这样的用户有用,调音器单说吉他这一块,做出智能的模型和 chat 相结合,全球吉他用户估计都会碾压式测试,和音轨分离目标用户不是量级
    chatWell1
        19
    chatWell1  
       360 天前
    @829939 大佬,这个方向我投你深度学习的模型做出来开源,会在这个 github 地址上开源吗
    fanjk
        20
    fanjk  
       360 天前
    @829939 我一直想做一个关于音乐情绪分类的模型,不知道如何下手。大佬可否给个思路?
    829939
        21
    829939  
    OP
       360 天前
    @fanjk 这需要对大量音频数据进行特征提取,对数据进行标注,打上情感标签。然后建立机器学习模型,对标注好的数据进行训练。然后就可以针对你的音频进行情感预测。
    zhhanging
        22
    zhhanging  
       360 天前
    现在手机上的调音器 app 就可以有 1 的效果了呀,而且调音功能是免费的,我用的是 guitartuna
    829939
        23
    829939  
    OP
       360 天前
    @zhhanging 你说的没错。市面上确实有一些还不错的调音器 APP 。 但是并没有发现能识别你弹奏的是哪一根弦的,而是根据识别到的音高频率 简单的归到临近频率的弦上。 这对吉他新手 或者“新琴”很不友好,识别错弦的话 很容易让人把弦条断。
    这里就可以根据每根弦的声乐特征进行训练,可以识别出用户弹奏的是哪一根弦,进而提示该调高还是调低。
    另外这个做出来也将是开源的。guitartuna 好像还有些付费限制。
    james0517
        24
    james0517  
       360 天前
    我想训练模型,可是我的垃圾显卡不太想,40 系显卡太贵了 - - 还有什么推荐吗
    chatWell1
        25
    chatWell1  
       360 天前
    @zhhanging "识别音高和拨动的哪一根琴弦",大佬想表达应该不止音高,还有确认是哪一根弦发出的,目前市面上 app 大多估计都是基于纯粹的频率音高做的,对新手可能不太友好,某些情况下弦可能调断或越调越低
    CMLab
        26
    CMLab  
       360 天前
    @james0517 goole 免费的 Colab 可以白嫖,就是有时候可能不太稳定
    james0517
        27
    james0517  
       360 天前
    @CMLab Colab 我看过,感觉有点麻烦。 我本地大量数据集还要上传到 google ,费流量。
    还是想在本地跑。 有没有显卡推荐
    fanjk
        28
    fanjk  
       360 天前
    @james0517 4070 快出了,我想买,但是看 amd 的性价比更好,就是不知道对于训练来说兼容性如何?
    xbcslzy
        29
    xbcslzy  
       360 天前
    @fanjk 3080 3090 性价比高一些
    fanjk
        30
    fanjk  
       360 天前
    @xbcslzy 30 系都是矿吧
    CMLab
        31
    CMLab  
       360 天前
    @james0517 找二手 A100 试试
    s0nnse
        32
    s0nnse  
       360 天前   ❤️ 1
    1 无用,很多调音设备已经具备这个功能了,并不复杂。推荐自动扒歌、音画分录的音轨自动对齐,根据视频里的手势自动识别和弦、自动生成简谱,根据录屏自动教学、纠错。
    diggerdu
        33
    diggerdu  
       360 天前
    分离转谱这些技术都相对成熟了
    chatWell1
        34
    chatWell1  
       360 天前
    @diggerdu @829939 分离相对成熟一些,一般最多人声,钢琴、bass 、鼓、其它,如果加上吉他等其它乐器延展一下就更好了;转谱这块成熟的不多,这里面涉及到一个 multi-pitch 以及多声部端点侦测的问题,目前这块没有太好的,大佬可以尝试这方面的研究,这也是一直是 MIR 领域比较难啃的一个点
    insmoin
        35
    insmoin  
       360 天前
    钢琴转录 midi 好几年前就有了 你可以优化下 字节开源的 https://github.com/bytedance/piano_transcription
    findex
        36
    findex  
       360 天前
    @CMLab 我现在用的 mac 上某免费软件,可以体验所有功能。
    829939
        37
    829939  
    OP
       360 天前
    @insmoin 感谢推荐。我试试效果
    CMLab
        38
    CMLab  
       360 天前
    @insmoin 这个早起有关注过,网络结构上采用常用的 CRNN+联合损失函数,给的 demo 也不错,之前录了一把小星星实测一把,效果不理想,比 demo 差远了,我怀疑是不是某种过拟合了,还是真实录制的钢琴( the one )就是有问题,大佬有实测使用过感受效果吗?
    CMLab
        39
    CMLab  
       360 天前
    @829939 @insmoin 转录这块,我发现台湾某一个大学出的一个 omnizart 项目还算能出一些效果,和弦识别这块貌似只有大小三和弦,转录这块要成熟应用还有不少差距(实测节奏、音高这些都或多或少有问题),本项目是基于现有音轨分离、chord 识别一些开源项目基础上二次训练而成的,大佬研究这块可以借鉴一下
    xbcslzy
        40
    xbcslzy  
       360 天前
    @fanjk 高端的矿少一些 特别是 12G 版本的, 而且 30 系是最后一代 sli 了 后边扩 2 卡 4 卡不知道 40 系能不能搞
    james0517
        41
    james0517  
       360 天前
    @fanjk AMD 做机器学习还是算了:工具链匮乏、库资源匮乏、开发和迭代兼容性的代价较大。
    4070 可以看看
    stonepy
        42
    stonepy  
       360 天前
    @829939 好的,谢谢大佬
    CMLab
        43
    CMLab  
       360 天前
    @findex 可以分享一下这款软件,我看之前是否有体验过
    chatWell1
        44
    chatWell1  
       360 天前
    @829939 音频指纹深度学习方式如何做,大佬可否给个思路建议?
    zw1234
        45
    zw1234  
       360 天前
    能否用 chatgpt 生成歌词和旋律,然后合成歌曲,ai 写歌...
    829939
        46
    829939  
    OP
       360 天前 via iPhone
    @chatWell1 音频指纹上面有提到两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
    829939
        47
    829939  
    OP
       360 天前 via iPhone
    @zw1234 chatGPT 目前应该可以生成歌词和旋律,接着还可以给旋律配乐,目前输出只能是文本形式,更成熟的生产力可能需要更专业的 prompt 和后续 audio 输出的支持。
    xbcslzy
        48
    xbcslzy  
       360 天前
    看评论区这些如果实现了又要释放一波生产力了, 不过最近 B 站多位博主暂时停更了 要开始反对 AI 了
    clemente0620
        49
    clemente0620  
       359 天前
    能做乐器迁移吗? 比如 吉他换成钢琴
    chatWell1
        50
    chatWell1  
       359 天前
    @clemente0620 google Magenta 这个项目有你所说的类似功能
    olderwang
        51
    olderwang  
       359 天前
    好奇,是否可以做声音的音色模拟啥的,通过输入目标音频,提取对应的音色,然后赋值给新的视频中对应的音频,感觉这个功能可以做些热门视频本地方言化,在地方论坛或者抖音地方中获取不错的流量
    ppxiale
        52
    ppxiale  
       359 天前
    @olderwang 我觉得你这个可以有,小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的,不过我觉得这块可能还有个问题不好解决,就是方言对应的语料库这些,类似于语言翻译这块,不仅仅是声音音色识别,口音只是方言的一个特色,很多语义其实也需要解决
    olderwang
        53
    olderwang  
       359 天前
    @ppxiale 嗯,是这样,音频领域和文字领域很多都是相辅相成的,入口出口都有很大价值,能操作的点还是很多的,期待大佬们的作品
    insmoin
        54
    insmoin  
       359 天前
    @CMLab GUI 版 https://github.com/azuwis/pianotrans/ 还原度能达到 90%以上吧, b 站搜 AI 扒谱能搜到很多, 只能是钢琴的
    insmoin
        55
    insmoin  
       359 天前
    @CMLab "给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来"

    今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能 思路挺不错的 我觉得这个思路可以拿来实现你说的这个
    https://www.bilibili.com/video/BV1mT411s7Qr
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2429 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 16:06 · PVG 00:06 · LAX 09:06 · JFK 12:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.