GPT-SoVITS是一款结合了GPT(生成预训练模型)和SoVITS(Singing Voice Conversion via Variational Information Bottleneck Technology)的开源声音克隆工具,主要用于声音(主要是歌声)转换任务。
主要特点
- 高质量转换:借助GPT的强大生成能力,GPT-SoVITS能够实现自然且流畅的声音转换,使得转换后的歌声更加逼真。
- 跨语言支持:该工具支持多种语言的语音推理,包括英语、日语、韩语、粤语和中文等,打破了语言壁垒,使得声音克隆技术能够跨越国界,服务于更广泛的人群。
- 零样本文本到语音(TTS):用户只需提供5秒的声音样本,即可立即体验文本到语音的转换功能。
- 集成辅助工具:GPT-SoVITS集成了声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注等辅助工具,这些工具进一步提升了系统的功能性和实用性,使得初学者也能轻松创建训练数据集和GPT/SoVITS模型。
- 端到端训练:模型可以直接从输入到输出进行训练,无需复杂的中间处理步骤,大幅缩短了声音模型的训练时间。
应用场景
- 娱乐领域:GPT-SoVITS可以用于制作明星的语音包或模仿名人的声音,为粉丝提供更加丰富的娱乐体验。
- 教育领域:该工具可以帮助学生练习发音或制作有声读物,提高学习效果。
- 客服领域:GPT-SoVITS可以用于生成个性化的语音回复,提升客户体验。
系统要求
-
硬件要求:
- GPU:支持CUDA的NVIDIA显卡,至少6GB显存,建议使用NVIDIA GTX 1660或更高型号。
- CPU:多核CPU,如Intel Core i5或更高,能加快数据处理和模型推理的速度。
- 内存:至少16GB内存,建议32GB以应对大规模数据和训练任务。
- 存储空间:至少50GB的可用硬盘空间,SSD会显著提升速度。
-
软件要求:
- Python:推荐使用Python 3.8或3.9版本。
- CUDA和cuDNN:如果使用NVIDIA GPU,需要安装相应版本的CUDA和cuDNN。
- PyTorch:GPT-SoVITS依赖于PyTorch作为深度学习框架。
- 其他依赖库:包括numpy、scipy、librosa等音频处理库。
使用方法
-
安装GPT-SoVITS:
- 用户可以从GitHub上下载GPT-SoVITS项目文件,并将其解压到一个非中文路径下。
- 找到并双击运行go-webui.bat文件,即可启动GPT-SoVITS的Web界面。
-
准备音频:
- 用户需要准备一段用于切割训练的音频,音频应尽可能清晰、纯净,避免背景音、杂音或其他人物的声音。
- 音频长度建议控制在1分钟左右,以便获得更好的训练效果。
-
音频处理:
- 在GPT-SoVITS的Web界面中,用户可以进行音频处理操作,包括人声分离、去噪、切割等。
- 这些操作有助于提取出高质量的语音样本,为后续的训练和推理打下坚实基础。
-
训练与推理:
- 完成音频处理后,用户需要填写模型名称、ASR文件地址和切割的音频文件夹地址等信息。
- 开启一键三连操作(即自动完成训练集格式化、微调训练和TTS推理等步骤)。
- 等待训练过程完成,即可使用生成的模型进行语音合成。
-
语音合成:
- 在训练完成后,用户可以选择生成的GPT和SoVITS模型,并上传一段优质的切片音频作为参考声音。
- 填写需要合成的文本内容,并点击合成语音按钮。
- 稍等片刻后,用户即可在线播放或下载生成的语音文件。