GPT-SoVITS 只需要少量语音微调训练(推荐1分钟,最少5秒钟),就可以快速克隆人物的音色;或者不训练直接推理,由参考音频的情感、音色、语速控制合成音频的情感、音色、语速;还可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种。
目前 GPT-SoVITS 已经发布了 V2版本:对低音质参考音频合成出来音质更好;底膜训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少;增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成;V2中还加入了多音字优化。
Github

夸克网盘
迅雷网盘
123云盘

配置要求
1 win10或win11系统,老显卡驱动要更新到最新版本
2 显卡1060以上
3 CPU四核心以上,如果太差声音卡顿延迟高

功能:
零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。