微信关注,获取更多

打造个性化声音转换工具 – Retrieval-based Voice Conversion WebUI

在数字时代,声音成为了我们生活中不可或缺的一部分。无论是在社交媒体上分享生活片段,还是在工作中使用语音助手进行沟通,声音都扮演着重要的角色。然而,有没有一次你想要改变自己的声音,让它听起来像你最喜欢的歌手或电影角色?现在,有了Retrieval-based Voice Conversion WebUI,你可以轻松实现这一愿望。

了解项目

Retrieval-based Voice Conversion WebUI是一个基于VITS(Variational Inference Text-to-Speech)的声音转换框架,旨在让你能够将自己的声音转换成你喜欢的声音。这个项目具有一系列强大的功能,使其成为一个引人注目的工具:

  1. 减少音调泄漏:通过使用检索集特征替换源特征,有效减少音调泄漏。
  2. 简单快捷的训练:即使在相对较差的显卡上,也可以轻松快速训练。
  3. 小数据量也能获得好结果:即使只有少量数据,也能获得相对良好的结果(建议至少10分钟的低噪声演讲)。
  4. 支持模型融合:可以通过模型融合来改变音色。
  5. 易于使用的Web界面:提供了直观的Web界面,让操作更加便捷。
  6. 使用UVR5模型分离声音和乐器:可以使用UVR5模型迅速分离声音和乐器。
  7. 使用高音提取算法:采用了最强大的高音提取算法InterSpeech2023-RMVPE,避免了消声问题,并且速度更快,资源消耗更低。
  8. 支持多种图形卡加速:包括Nvidia、AMD、Intel ARC等图形卡的加速。

项目准备

在开始使用Retrieval-based Voice Conversion WebUI之前,你需要做一些准备工作。以下是准备环境的步骤:

  1. 安装Python 3.8或更高版本。
  2. 安装PyTorch相关核心依赖项(如果未安装)。
    pip install torch torchvision torchaudio
  3. 使用Poetry工具或pip安装其他依赖项,具体取决于你的显卡类型。
    • Nvidia显卡:
      pip install -r requirements.txt
    • AMD/Intel显卡:
      pip install -r requirements-dml.txt
    • Intel ARC显卡(在Linux / WSL上使用Python 3.10):
      pip install -r requirements-ipex.txt
  4. 如果你是Mac用户,可以通过运行sh ./run.sh来安装依赖项。

准备预训练模型

Retrieval-based Voice Conversion需要一些预训练模型来进行推断和训练。你需要从项目的Huggingface空间下载这些模型和其他文件。以下是需要的文件列表:

  • ./assets/hubert/hubert_base.pt
  • ./assets/pretrained
  • ./assets/uvr5_weights

如果你想测试模型的v2版本,还需要下载以下文件:

  • ./assets/pretrained_v2

如果你使用Windows,可能还需要下载以下两个文件,如果已安装FFmpeg和FFprobe则可以跳过:

如果要使用最新的SOTA RMVPE声音音高提取算法,你需要下载RMVPE权重并将其放置在RVC根目录中,具体下载链接请参考项目文档。

对于AMD/Intel显卡用户,还需要下载相应的权重文件,具体下载链接请参考项目文档。

对于Intel ARC显卡用户,在启动WebUI之前需要运行source /opt/intel/oneapi/setvars.sh命令。

最后,使用以下命令启动WebUI:

python infer-web.py

如果你使用Windows或macOS,你可以下载并解压RVC-beta.7z文件,然后在Windows上使用go-web.bat,在macOS上使用sh ./run.sh来直接使用RVC。

结语

Retrieval-based Voice Conversion WebUI是一个令人兴奋的项目,它为你提供了一个独特的方式来改变你的声音,创造出个性化的音频体验。无论是用于娱乐、创意制作还是其他用途,这个项目都能为你带来无限可能。不要犹豫,立即尝试吧!

未经允许不得转载:大神网 » 打造个性化声音转换工具 – Retrieval-based Voice Conversion WebUI

相关推荐

    暂无内容!