基于这个开源小项目，做哪些受欢迎的 ChatGPT 插件模型？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1020 天前的主题，其中的信息可能已经有所发展或是发生改变。

本人研二，专业深度学习音频领域研发，去年在校做了一个开源小项目，是关于音频特征提取和分析的，可以针对音频领域的各种业务做原型开发，目前规划的音频领域的研究任务方向：

智能调音器，针对吉他弦乐乐器的调音，识别音高和拨动的哪一根琴弦，
旋律提取，从音乐音频中识别旋律音高轮廓，主要针对人声唱歌主旋律声音的基频提取，
音轨分离，从音乐音频中分离出人声，钢琴、吉他、鼓、贝斯等多个乐器声音
和弦估算，识别音乐音频中和弦，和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位，包括起始和持续时间
钢琴转录，针对钢琴乐器音频的复音识别，确定复音的端点、音高组合、持续时间，转录为 midi 或曲谱
.....

如果做成 ChatGPT 插件模型哪些会更受欢迎？这些方向应用场景和需求怎么样？
欢迎大家参与论讨或给出新的方向建议！！！后续按大家讨论建议汇总，确认几个研究方向后按优先级逐步开发实现并开源贡献。

项目地址： https://github.com/libAudioFlux/audioFlux

音频

和弦

复音

开源

55 条回复 • 2023-04-04 21:58:17 +08:00

chatWell1

2023 年 4 月 3 日

和弦估算吧，我觉得这个应用价值广泛，和 chat 结合后，传音频就能出来和弦进行数据吗？

829939

2023 年 4 月 3 日

@chatWell1 是的，目前我这个小项目是可以实现这个功能的。chat 这边我还需要看下文档。

CMLab

2023 年 4 月 3 日

给 chat 一个 mp3 , 使用你的插件模型音轨分离 --->旋律提取（人声）+和弦估算（伴奏）---->钢琴转率（不一定钢琴乐器），这些走通，估计 chat 上会飘起来

dark009

2023 年 4 月 3 日

我感觉目前的音轨分离方案在处理复杂音乐时效果还不够理想，希望能够有更加准确的算法和模型来解决这个问题

xbcslzy

2023 年 4 月 3 日

目测新一波炼丹需求要来了

829939

2023 年 4 月 3 日

@dark009 音轨分离一般常用的做法是频域掩码，最简单的就是二值化掩码，有很多这块定向算法的研究，典型的如 NMF 算法相关的有很多种，很多也取得不错的效果，但效果好的还是使用深度学习训练频域掩码，也是这些年音频领域研究的热点之一。

829939

2023 年 4 月 3 日

@CMLab 大佬提的这一套能实现下来确实能方便很多音乐学生？

chatWell1

2023 年 4 月 3 日

@xbcslzy 音频音乐领域的盛宴估计要开始了

chatWell1

2023 年 4 月 3 日

@CMLab 厉害，这个能走通，目测能火

dark009

2023 年 4 月 3 日

@CMLab 这个想法非常棒啊

ManxCat

2023 年 4 月 3 日

音轨分离和和弦估算最受欢迎吧但是成年人不做选择,我全要

CMLab

2023 年 4 月 3 日

@829939 我觉得音乐生成这个业务和方向，是个热点，楼主可以考虑下这个点的研发

CMLab

2023 年 4 月 3 日

@ManxCat 成年人，爱音乐的话，我觉得可能调音器最重要😃

chatWell1

2023 年 4 月 3 日

@829939 @CMLab 加上音频指纹这个模型，估计更好玩

collinmehle

2023 年 4 月 3 日

@CMLab 调音器只针对了部分乐器领域不够通用

Aloento

2023 年 4 月 3 日

玩音乐的表示你这个出来了记得踢我，简直不要太棒

829939

2023 年 4 月 3 日

@chatWell1 音频指纹确实是不错的想法。这个库可以帮助你实现。两种方式：1 、基于时频分析的方式，2 、基于深度学习的方式。都可以用到库里提供的方法提取一些音频特征。

CMLab

2023 年 4 月 3 日

@collinmehle 音轨分离这些可能对老师或 B 端这样的用户有用，调音器单说吉他这一块，做出智能的模型和 chat 相结合，全球吉他用户估计都会碾压式测试，和音轨分离目标用户不是量级

chatWell1

2023 年 4 月 3 日

@829939 大佬，这个方向我投你深度学习的模型做出来开源，会在这个 github 地址上开源吗

fanjk

2023 年 4 月 3 日

@829939 我一直想做一个关于音乐情绪分类的模型，不知道如何下手。大佬可否给个思路？

829939

2023 年 4 月 3 日

@fanjk 这需要对大量音频数据进行特征提取，对数据进行标注，打上情感标签。然后建立机器学习模型，对标注好的数据进行训练。然后就可以针对你的音频进行情感预测。

zhhanging

2023 年 4 月 3 日

现在手机上的调音器 app 就可以有 1 的效果了呀，而且调音功能是免费的，我用的是 guitartuna

829939

2023 年 4 月 3 日

@zhhanging 你说的没错。市面上确实有一些还不错的调音器 APP 。但是并没有发现能识别你弹奏的是哪一根弦的，而是根据识别到的音高频率简单的归到临近频率的弦上。这对吉他新手或者“新琴”很不友好，识别错弦的话很容易让人把弦条断。
这里就可以根据每根弦的声乐特征进行训练，可以识别出用户弹奏的是哪一根弦，进而提示该调高还是调低。
另外这个做出来也将是开源的。guitartuna 好像还有些付费限制。

james0517

2023 年 4 月 3 日

我想训练模型，可是我的垃圾显卡不太想，40 系显卡太贵了 - - 还有什么推荐吗

chatWell1

2023 年 4 月 3 日

@zhhanging "识别音高和拨动的哪一根琴弦"，大佬想表达应该不止音高，还有确认是哪一根弦发出的，目前市面上 app 大多估计都是基于纯粹的频率音高做的，对新手可能不太友好，某些情况下弦可能调断或越调越低

CMLab

2023 年 4 月 3 日

@james0517 goole 免费的 Colab 可以白嫖，就是有时候可能不太稳定

james0517

2023 年 4 月 3 日

@CMLab Colab 我看过，感觉有点麻烦。我本地大量数据集还要上传到 google ，费流量。
还是想在本地跑。有没有显卡推荐

fanjk

2023 年 4 月 3 日

@james0517 4070 快出了，我想买，但是看 amd 的性价比更好，就是不知道对于训练来说兼容性如何？

xbcslzy

2023 年 4 月 3 日

@fanjk 3080 3090 性价比高一些

fanjk

2023 年 4 月 3 日

@xbcslzy 30 系都是矿吧

CMLab

2023 年 4 月 3 日

@james0517 找二手 A100 试试

s0nnse

2023 年 4 月 3 日

1 无用，很多调音设备已经具备这个功能了，并不复杂。推荐自动扒歌、音画分录的音轨自动对齐，根据视频里的手势自动识别和弦、自动生成简谱，根据录屏自动教学、纠错。

diggerdu

2023 年 4 月 3 日

分离转谱这些技术都相对成熟了

chatWell1

2023 年 4 月 3 日

@diggerdu @829939 分离相对成熟一些，一般最多人声，钢琴、bass 、鼓、其它，如果加上吉他等其它乐器延展一下就更好了；转谱这块成熟的不多，这里面涉及到一个 multi-pitch 以及多声部端点侦测的问题，目前这块没有太好的，大佬可以尝试这方面的研究，这也是一直是 MIR 领域比较难啃的一个点

insmoin

2023 年 4 月 3 日

钢琴转录 midi 好几年前就有了你可以优化下字节开源的 https://github.com/bytedance/piano_transcription

findex

2023 年 4 月 3 日

@CMLab 我现在用的 mac 上某免费软件，可以体验所有功能。

829939

2023 年 4 月 3 日

@insmoin 感谢推荐。我试试效果

CMLab

2023 年 4 月 3 日

@insmoin 这个早起有关注过，网络结构上采用常用的 CRNN+联合损失函数，给的 demo 也不错，之前录了一把小星星实测一把，效果不理想，比 demo 差远了，我怀疑是不是某种过拟合了，还是真实录制的钢琴（ the one ）就是有问题，大佬有实测使用过感受效果吗？

CMLab

2023 年 4 月 3 日

@829939 @insmoin 转录这块，我发现台湾某一个大学出的一个 omnizart 项目还算能出一些效果，和弦识别这块貌似只有大小三和弦，转录这块要成熟应用还有不少差距（实测节奏、音高这些都或多或少有问题），本项目是基于现有音轨分离、chord 识别一些开源项目基础上二次训练而成的，大佬研究这块可以借鉴一下

xbcslzy

2023 年 4 月 3 日

@fanjk 高端的矿少一些特别是 12G 版本的, 而且 30 系是最后一代 sli 了后边扩 2 卡 4 卡不知道 40 系能不能搞

james0517

2023 年 4 月 3 日

@fanjk AMD 做机器学习还是算了：工具链匮乏、库资源匮乏、开发和迭代兼容性的代价较大。
4070 可以看看

stonepy

2023 年 4 月 3 日

@829939 好的，谢谢大佬

CMLab

2023 年 4 月 3 日

@findex 可以分享一下这款软件，我看之前是否有体验过

chatWell1

2023 年 4 月 3 日

@829939 音频指纹深度学习方式如何做，大佬可否给个思路建议？

zw1234

2023 年 4 月 3 日

能否用 chatgpt 生成歌词和旋律，然后合成歌曲，ai 写歌...

829939

2023 年 4 月 3 日 via iPhone

@chatWell1 音频指纹上面有提到两种方式：1 、基于时频分析的方式，2 、基于深度学习的方式。都可以用到库里提供的方法提取一些音频特征。

829939

2023 年 4 月 3 日 via iPhone

@zw1234 chatGPT 目前应该可以生成歌词和旋律，接着还可以给旋律配乐，目前输出只能是文本形式，更成熟的生产力可能需要更专业的 prompt 和后续 audio 输出的支持。

xbcslzy

2023 年 4 月 3 日

看评论区这些如果实现了又要释放一波生产力了, 不过最近 B 站多位博主暂时停更了要开始反对 AI 了

clemente0620

2023 年 4 月 4 日

能做乐器迁移吗? 比如吉他换成钢琴

chatWell1

2023 年 4 月 4 日

@clemente0620 google Magenta 这个项目有你所说的类似功能

olderwang

2023 年 4 月 4 日

好奇，是否可以做声音的音色模拟啥的，通过输入目标音频，提取对应的音色，然后赋值给新的视频中对应的音频，感觉这个功能可以做些热门视频本地方言化，在地方论坛或者抖音地方中获取不错的流量

ppxiale

2023 年 4 月 4 日

@olderwang 我觉得你这个可以有，小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的，不过我觉得这块可能还有个问题不好解决，就是方言对应的语料库这些，类似于语言翻译这块，不仅仅是声音音色识别，口音只是方言的一个特色，很多语义其实也需要解决

olderwang

2023 年 4 月 4 日

@ppxiale 嗯，是这样，音频领域和文字领域很多都是相辅相成的，入口出口都有很大价值，能操作的点还是很多的，期待大佬们的作品

insmoin

2023 年 4 月 4 日

@CMLab GUI 版 https://github.com/azuwis/pianotrans/ 还原度能达到 90%以上吧, b 站搜 AI 扒谱能搜到很多, 只能是钢琴的

insmoin

2023 年 4 月 4 日

@CMLab "给 chat 一个 mp3 , 使用你的插件模型音轨分离 --->旋律提取（人声）+和弦估算（伴奏）---->钢琴转率（不一定钢琴乐器），这些走通，估计 chat 上会飘起来"

今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能思路挺不错的我觉得这个思路可以拿来实现你说的这个
https://www.bilibili.com/video/BV1mT411s7Qr