24a's blog
0x24a's personal blog.
首页
友情链接
联系我
文章分类
常用标签
友情链接
一种使用少量声音样本制作高质量TTS换音色模型/UTAU声库的方法
2024-04-19 |0x24a | 默认分类

在学校实在无聊,晚自习拿出了草稿纸开始头脑风暴。
最近试玩了 So-VITS-SVC 并且通过批量推理的方式给自己做了高质量的 UTAU VCV 声库,但整个录制过程过于困难(录制训练 SoVITS 的样本所花费的时间约为 2 天),于是想到了一种懒人方法来训练 TTS SoVITS 模型的方法。

事先叠甲

本篇教程仅提供 大体思路 ,对于部分操作步骤(如使用 Google Colab 进行训练、文中提到的开源软件的具体使用方法),请发挥你的 Geek 精神:读文档、善用搜索或自己摸索。

流程简介

  1. 录制原音声( 2 分钟 即可达到 非常优质 的效果!)
  2. 训练 GPT-SoVITS 模型
  3. 使用大量随机语料,生成净时间约为 3hr 的训练样本
  4. 使用 GPT-SoVITS 的输出训练 So-VITS-SVC 模型
  5. (Optional) 下载任意 UTAU 声库并通过批量 Infer 以制作高质量声库

具体步骤

W.I.P.

respond-post-12
NIHAO
NIHAO
April 24th, 2024 at 07:28 pm

我要使用24a的声库学日语)

Maoist
Maoist
August 7th, 2024 at 08:24 pm

革命风暴席卷全球,牛鬼蛇神一片惊慌!!!

添加新评论

请填写称呼
请填写合法的电子邮箱地址
请填写合法的网站地址
请填写内容
正在加载验证组件