关于So-Vits项目的学习

​ 这个博客就来分享一下我在B站看到的一个比较有意思的项目,主要就是通过深度学习(AI)个人的声音以后可以通过推理来模拟出你所训练的声音。以下是使用B站up主Mahiro_desu(UID:30084949)分享的真寻(最近刚完结没多久的1月新番《别当欧尼酱了》的主角)模型推理的唱的一首歌

img

原唱是Aimer的March of times(选这首歌是因为看了泛式的最新mad),我们可以来听着比较一下(对于看过番的人来说更能体会到推理的声音和原声音有多像吧)

​ AI在最近都是比较火的,不管是chatGPT还是novelAI都掀起了一定的AI火。

mmexport1678762168358 bd99a3fa92301f7

​ (图1为在北京奥森公园拍的照片,图2为我用novelAI跑的图片)

chatGPT爆火我觉得不单单是因为他能聊天,更重要的是他懂各种各样的知识,比如能几秒钟用C++写好一个快速排序的程序,用SQL语言查询数据库等等。这些我都蛮感兴趣的且都尝试过。不过合成音声的话并没有那么爆火,可能是因为他能用的范围比较少(至少我看到的大多数使用合成音声的视频都是训练了他们喜欢的up主然后用练好的模型来唱那些up没唱过的歌),要说在现实的应用的话应该就只有搞诈骗了吧(毕竟训练好的模型是真的像)。

img

​ 接下来就稍微介绍一下vits是怎么办到合成音声的吧(详细介绍的话B站有一堆视频手把手教你怎么做)

1.准备好数据集,一般都需要1h左右纯净的人声,不能有任何杂音的那种,因为会影响训练的模型的效果。准备数据集一般会使用到另外几个项目,分别用来分离纯净的人声以及将分离好的人声切成5-10s的片段(这个时候最折磨的就是得手动筛选不合适的切片)。

img

2.训练,这里主要是使用vits这个项目进行,把1中准备好的那些小片段放在指定的目录下然后进行训练,之所以要切成片成几秒的就是为了方便训练,因为光是这样就需要至少8g显存了,更不用说需要的算力。(这时候应该来一句f**k u 英伟达)

3.推理,也是主要使用vits进行你训练好的模型推理,推理所需要的音频也是纯净的人声(不然效果会很怪),而且每次推理都不能超过90s(一般根据你的显卡的显存来决定时间的长短),此时就得到了你所训练的人的声音所说/唱的纯人声了。

4.最后则是把你所推理的模型拼上原本的BGM,这样你就能听到你所训练的人所唱的歌啦。

说起来是很容易的,但实际做的时候会遇到各种问题,能做出来实在是很不容易的。

img

​ 不知道以后会不会有相关的法律等来限制AI唱歌(AI画图所喂的图大多也是别人辛辛苦苦画的,大概率没版权),因为训练别人的声音大多也是没有授权的,而且可能有些别有用心的人用训练好的比较火的人来诈骗也说不定(训练好的模型能唱歌也肯定能说话嘛)。

​ 最后分享几个我觉得比较生草的AI唱歌的项目吧。

【AI周杰伦】群青,但是周杰伦唱_哔哩哔哩_bilibili

【ai周杰伦】这么可爱真是抱歉_哔哩哔哩_bilibili

【AI Dio】❤️ D I O 想 变 得 可 爱 ❤️_哔哩哔哩_bilibili

放上我所观看的教程视频

【AI翻唱/SoVITS 4.0】手把手教你老婆唱歌给你听~无需配置环境的本地训练/推理教程懒人整合包_哔哩哔哩_bilibili

只能说AI

img
打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2023 Limuru Tempest
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~