【AI语音】业界最强的AI声音克隆软件GPT-SoVITS,一键包加教程
deepface吧
全部回复
仅看楼主
吧务
level 12
最近很火的AI声音克隆软件,只需要几分钟声音素材,几分钟就能快速复制克隆出相似度惊人的声音。
软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面试,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。
防止 链接被吞,下载放在二楼
软件下载后,解压出来,建议解压到非中文目录下,切记!
在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。
第一步,素材处理,按照下图演示,填写好路径,其他默认
中文批量离线ASR工具,这里的ASR模型,如果 你是中文,达摩和whisper都可以,如果是英文,最好用whisper,经过测试,openai的whisper综合效果最好。
第二步,训练集格式化
除了第一个参数“实验/模型名”自行命名外,其他都默认,然后按照下图闭眼点就行了
最后记得点“开启一件三连”
第三步,微调训练
“每张显卡的batch_size” 这个参数根据自己的显存来选择,12G显存设置8左右,其他根据自己显存调整。
训练总轮数,第一个建议设置10,第二个15。也可以根据自己的需求调整,不要太高,声音素材是关键。否则训练再多轮也没意义。
按照序号,先训练SoVITS,右侧有提示信息,结束后,再训练GPT。这俩训练都很快,显卡好的,分分钟就完成了。
第四步,推理
按照下图步骤,先刷新模型路径,然后选择你训练的模型名称(模型选择后面数字最大的那个,也就是最新的模型),两个都要选
最后记得勾选“是否开启TTS推理WebUI”
稍等片刻,TTS推理启动后,会跳转到新的webUI推理页面
第五步,TTS语音合成
选择你的模型,参考语音找一段你之前训练用的素材,3-10秒,不要太长,也不要太短。可以下拉选择,如果下拉没有显示,就在数字4的位置手动选择。然后勾选数字5的“开启无参考文本模式 无参考文本时该选项无效”
在数字6的位置输入你要转换的文字,最后合成语音。
2024年03月06日 06点03分 1
吧务
level 12
一键包下载
链接: [无效] https://pan.baidu.com/s/1mulxy1ticeYBOaQu_Kamng?pwd=7879 提取码: 7879 复制这段内容后打开百度网盘手机App,操作更方便哦
2024年03月06日 06点03分 2
楼主这个对配置有啥要求吗?
2024年12月17日 03点12分
@无言以对2012 有手机使用的吗?
2025年01月24日 15点01分
@MIC_BigFan 已更新
2024年07月09日 08点07分
2024年11月11日 14点11分
吧务
level 8
过年的时候跑了两个,无奈噪音太多,效果并不太理想。
快是真的快,几分钟就完成了
2024年03月06日 11点03分 5
@贤者·阿黄 可以给个链接吗?
2024年11月10日 13点11分
Fast vits和这个是一样的不,[惊哭]我的素材只能wav的音频格式,用没有噪声(纯人声)的素材训练还不错。
2024年03月06日 19点03分
@贤者·阿黄 Fast是精简版的克隆项目,给小显存卡玩的,你试试这个,效果强太多了。
2024年03月07日 05点03分
@馬戰途 哪个软件的?
2024年11月10日 13点11分
level 1
请问用什么显卡,训练这类模型速度需要多久?
2024年03月20日 05点03分 6
N卡,显存6G起吧。这个训练很快,几分钟就有很好的效果了。
2024年03月20日 08点03分
level 1
这个需要设备麦克风录音的,手机录音出的效果不是很好。
2024年03月20日 17点03分 7
无论麦克风还是手机,周围环境要安静,我就是用手机录的,效果很好。
2024年03月21日 00点03分
吧主可以出个简单视频不
2024年07月12日 09点07分
level 5
吧主好人[太开心]
2024年03月23日 16点03分 9
level 2
这个可以应用到视频里么?就是用mp3替换视频里的声音,还是只限于音频直接的交替
2024年03月24日 03点03分 10
暂时只支持文字转换。据说后期会支持。如果你要转音频,用SOVITS
2024年03月24日 07点03分
level 1
请问这步出错,是怎么回事啊
2024年04月10日 09点04分 11
文件路径不能有中文
2024年04月20日 02点04分
b站也见到你了,请问解决没[呵呵]
2024年04月23日 03点04分
@Yukino* 我根据b站视频弄的,路径确实改成不是中文的,然后跑的过程看我配置有个1060前面加了个0
2024年04月20日 02点04分
@Yukino* 微调GPT出来的只有一个选择,S是两个
2024年04月20日 02点04分
level 1
这是哪里错了
2024年04月17日 12点04分 12
目录不要有中文
2024年04月17日 23点04分
2024年04月17日 23点04分
level 1
不知道为什么日语合成总是不成功,中文倒是ok
2024年04月17日 20点04分 13
@toki1130 我一开始也是这样,过了一天连中文都合成不了了,请问你是怎么解决的,就把文件路径中文改掉了吗
2024年05月11日 09点05分
文件路径不能有中文
2024年04月20日 02点04分
@Yukino* 谢谢,我昨晚也尝试出来了emmm
2024年04月20日 05点04分
2024年05月12日 07点05分
level 2
这个是训练完的声音是只能念文本嘛,还是可以替换声音呀[呵呵]
2024年04月17日 22点04分 14
暂时只支持文本合成
2024年04月17日 23点04分
level 1
说解压出错。
2024年05月07日 00点05分 16
level 1
各位大佬,请问一下,做出来语气特别的平,没有情绪起伏,这个怎么办啊?
2024年05月10日 15点05分 19
素材不够吧
2024年05月11日 09点05分
1 2 3 4 5 尾页