在数字时代,声音成为了我们生活中不可或缺的一部分。无论是在社交媒体上分享生活片段,还是在工作中使用语音助手进行沟通,声音都扮演着重要的角色。然而,有没有一次你想要改变自己的声音,让它听起来像你最喜欢的歌手或电影角色?现在,有了Retrieval-based Voice Conversion WebUI,你可以轻松实现这一愿望。
了解项目
Retrieval-based Voice Conversion WebUI是一个基于VITS(Variational Inference Text-to-Speech)的声音转换框架,旨在让你能够将自己的声音转换成你喜欢的声音。这个项目具有一系列强大的功能,使其成为一个引人注目的工具:
- 减少音调泄漏:通过使用检索集特征替换源特征,有效减少音调泄漏。
- 简单快捷的训练:即使在相对较差的显卡上,也可以轻松快速训练。
- 小数据量也能获得好结果:即使只有少量数据,也能获得相对良好的结果(建议至少10分钟的低噪声演讲)。
- 支持模型融合:可以通过模型融合来改变音色。
- 易于使用的Web界面:提供了直观的Web界面,让操作更加便捷。
- 使用UVR5模型分离声音和乐器:可以使用UVR5模型迅速分离声音和乐器。
- 使用高音提取算法:采用了最强大的高音提取算法InterSpeech2023-RMVPE,避免了消声问题,并且速度更快,资源消耗更低。
- 支持多种图形卡加速:包括Nvidia、AMD、Intel ARC等图形卡的加速。
项目准备
在开始使用Retrieval-based Voice Conversion WebUI之前,你需要做一些准备工作。以下是准备环境的步骤:
- 安装Python 3.8或更高版本。
- 安装PyTorch相关核心依赖项(如果未安装)。
pip install torch torchvision torchaudio
- 使用Poetry工具或pip安装其他依赖项,具体取决于你的显卡类型。
- Nvidia显卡:
pip install -r requirements.txt
- AMD/Intel显卡:
pip install -r requirements-dml.txt
- Intel ARC显卡(在Linux / WSL上使用Python 3.10):
pip install -r requirements-ipex.txt
- Nvidia显卡:
- 如果你是Mac用户,可以通过运行
sh ./run.sh
来安装依赖项。
准备预训练模型
Retrieval-based Voice Conversion需要一些预训练模型来进行推断和训练。你需要从项目的Huggingface空间下载这些模型和其他文件。以下是需要的文件列表:
./assets/hubert/hubert_base.pt
./assets/pretrained
./assets/uvr5_weights
如果你想测试模型的v2版本,还需要下载以下文件:
./assets/pretrained_v2
如果你使用Windows,可能还需要下载以下两个文件,如果已安装FFmpeg和FFprobe则可以跳过:
如果要使用最新的SOTA RMVPE声音音高提取算法,你需要下载RMVPE权重并将其放置在RVC根目录中,具体下载链接请参考项目文档。
对于AMD/Intel显卡用户,还需要下载相应的权重文件,具体下载链接请参考项目文档。
对于Intel ARC显卡用户,在启动WebUI之前需要运行source /opt/intel/oneapi/setvars.sh
命令。
最后,使用以下命令启动WebUI:
python infer-web.py
如果你使用Windows或macOS,你可以下载并解压RVC-beta.7z文件,然后在Windows上使用go-web.bat
,在macOS上使用sh ./run.sh
来直接使用RVC。
结语
Retrieval-based Voice Conversion WebUI是一个令人兴奋的项目,它为你提供了一个独特的方式来改变你的声音,创造出个性化的音频体验。无论是用于娱乐、创意制作还是其他用途,这个项目都能为你带来无限可能。不要犹豫,立即尝试吧!