程序仓库地址:https://github.com/Anjok07/ultimatevocalremovergui
感谢原作者(Anjok07、aufr33、DilanBoskan和tsurumeso)的贡献,目前模型稳定更新中
写在前面,翻译自原作者:
此应用程序对旧硬件或便宜硬件不友好。请谨慎行事!请注意您的 PC 状态并确保它不会过热。我们不对任何硬件损坏负责。
(我亲测了,是挺热的,电脑不好的慎搞,不过可以尝试租个一个月十几块的普通机器试试)
非计算机相关专业安装这个有难度
Win10 & Win11 平台
测试的平台:
CPU:R5900hx
GPU:RTX 3060
CUDA:11.6.0
没测试过不装cuda会怎么样,我是在装了cuda之后再装这个程序的。
需下载的文件:
(1) python 3.9.8安装包(必选)
下载地址:https://www.python.org/downloads/windows/
选择Python 3.9.8下的 Windows installer (64-bit)
(2) 主程序压缩包(必选)
下载地址:https://github.com/Anjok07/ultimatevocalremovergui/archive/refs/heads/master.zip
(3) 模型文件(必选)
下载地址:https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.1.0/models.zip
(4) ffmpeg(必选)
下载页面:
https://www.gyan.dev/ffmpeg/builds/
可以选择的下载项:
ffmpeg-git-full.7z
或其他带full字眼的压缩包
(5) CUDA(有英伟达GPU的人选)
在装好英伟达显卡驱动之后,在cmd窗口中输入nvidia-smi,右上角会显示适合的cuda版本

选择不要高于适合版本的cuda,根据后面的安装过程,这里的cuda版本最好是11.1及以上的,但是不要选太新的,可能不兼容。
CUDA下载地址:
https://developer.nvidia.com/cuda-toolkit-archive
选择适合自己显卡的版本进入下载界面,然后根据系统版本选择

(6) Python依赖包——Pytorch组件(可选,建议连接Python网站及相关依赖包网站速度慢的人下载)
torch:
https://download.pytorch.org/whl/cu111/torch-1.9.0%2Bcu111-cp39-cp39-win_amd64.whl
torchvision:
https://download.pytorch.org/whl/cu111/torchvision-0.10.0%2Bcu111-cp39-cp39-win_amd64.whl
torchaudio:
https://download.pytorch.org/whl/torchaudio-0.9.0-cp39-cp39-win_amd64.whl
安装过程:
(1) CUDA安装(有英伟达显卡的可以安装)
直接双击.exe文件运行即可,比如我用的cuda文件是cuda_11.6.0_511.23_windows.exe,直接双击运行。
安装的时候选自定义(高级),安装所有组件。
其他版本的cuda安装过程见https://zhuanlan.zhihu.com/p/428082594
对于11.6版本的cuda,我是没有配置任何环境变量就可以成功的
验证是否成功的方法:新打开一个cmd窗口,在cmd窗口中输入nvcc -V,有正确输出即可

(2) 安装Python
直接以管理员运行python-3.9.8-amd64.exe即可,选择”Customize installation”,一定要把“Add Python 3.9 to PATH”勾选上,安装的目标路径不要选C盘,安装到其他任何一个盘就可以
为了方便后续的解释,我们假设Python全部都安装到D:\Python文件夹中,D:\Python\bin\中有python.exe(python程序)和其他文件。
安装完之后,打开cmd窗口(Win键+R,然后输入cmd),输入python之后有相关显示即可,类似如下显示

(3) 安装ffmpeg
直接解压安装包,然后将安装包下的bin的绝对路径添加至环境变量中的”Path”变量中,具体安装过程见:https://blog.csdn.net/weixin_43876729/article/details/120218227
要确保安装完之后,在cmd窗口中输入ffmpeg是有输出的,记得配置完环境变量之后要重新打开cmd窗口再试命令

(4) 安装主程序
解压主程序安装包和模型安装包,解压后主程序的文件夹(ultimatevocalremovergui-master)下会有一个文件夹名为models,将模型安装包中的所有模型文件(后缀名为.pth的文件)都放到models文件夹下的Main Models文件夹中
为了方便后续的解释,这里我们假设主程序都解压到D:\ultimatevocalremovergui-master中,ultimatevocalremovergui-master目录下有VocalRemover.py文件和其他文件;模型文件全部都在”D:\ultimatevocalremovergui-master\models\Main Models”中
(5) 安装Python依赖包
a.安装virtualenv
首先在cmd窗口中,输入”pip install -i https://pypi.tuna.tsinghua.edu.cn/simple virtualenv”
使用cmd切换到在主程序的目录下(切换命令:cd /d D:\ultimatevocalremovergui-master),输入”virtualenv -p python.exe的绝对路径 venv\”,比如”virtualenv -p D:\Python\bin\python.exe venv\”
接下来切换到venv\bin目录下(切换命令:cd /d venv\Scripts),输入”activate”并回车
完成这步之后,命令前面都会带着(venv)这个标志,请确保后面的所有的操作(安装以及运行)都需要在执行这一步之后

b.安装程序的依赖包
在cmd窗口中,输入”pip install -i https://pypi.tuna.tsinghua.edu.cn/simple –no-cache-dir -r requirements.txt”并回车
c.安装pytorch组件
在cmd窗口中,输入”pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html”并回车
(因为众所周知的原因,在国内可能是安装不了的)
或者
如果前面已经下载了Pytorch组件,可以按照如下步骤安装:
切换到那三个文件目录下
分别执行如下三个命令:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “torch-1.9.0%2Bcu111-cp39-cp39-win_amd64.whl
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “torchvision-0.10.0%2Bcu111-cp39-cp39-win_amd64.whl”
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “torchaudio-0.9.0-cp39-cp39-win_amd64.whl”
运行程序:
确保目前是(venv)状态
如果目前没有这个标志,可重新在cmd窗口中输入”D:\ultimatevocalremovergui-master\venv\Scripts\activate”并回车
在cmd窗口中切换到VocalRemover.py所在目录(cd /d D:\ultimatevocalremovergui-master)
执行如下命令
python VocalRemover.py
执行命令截图
即可进入主程序
PS:每次执行都需要确保是(venv)状态

主要模型说明:
HP2_3BAND_44100_MSB2.pth – 使用更多数据和更多参数训练的超强消人声保留伴奏模型(PS:理论上数据越多训练出来的模型效果越好)
HP2_4BAND_44100_1.pth – 超强消人声保留伴奏模型
HP2_4BAND_44100_2.pth – HP2_4BAND_44100_1.pth的微调版本
HP_4BAND_44100_A.pth – 超强消人声保留伴奏模型
HP_4BAND_44100_B.pth – HP_4BAND_44100_A.pth的微调版本
HP_KAROKEE_4BAND_44100_SN.pth – 可保留和声的消主声伴奏模型
HP_Vocal_4BAND_44100.pth – 人声提取模型,但是提取的伴奏会比较muddy
HP_Vocal_AGG_4BAND_44100.pth – HP_Vocal_4BAND_44100.pth 的加强版,这个强的意思不是效果好,是Aggressive的人声提取模型
上述模型产生均会产生人声和伴奏两个文件
使用说明:
(1)Save to选择的是你要输出伴奏和人声的路径,推荐专门新建一个文件夹,如果输出伴奏和人声的文件名和你路径里已经有的文件名重复,会默认覆盖,请注意这一点
输出文件名的命名方式:
伴奏文件:
原文件名_(Instrumental).wav
人声文件:
原文件名_(vocal).wav
(2)Select Your Audio File(s)选择的是你要处理的文件,理论上可以多个文件
Window Size:
窗口大小越小,转化效果越好。然而,更小的窗口意味着更长的转换时间和更重的资源使用。
以下是可选择的窗口大小值 –
1024 – 转换质量低,转换时间最短,资源使用率低
512 – 平均转换质量、平均转换时间、正常资源使用情况
320 – 转换质量更好,转换时间长,资源使用率高
(3)Aggressive Setting:数值越大,清除人声的力度就越大,默认的10就可以,已经可以完全消除人声。
范围是 0-100。
较高的值执行更深的提取。
乐器和声乐模型的默认值为 10。
超过 10 的值可能会导致抽取伴奏的模型的结果中的乐器部分听起来浑浊。
(4)Choose Conversion Method:选择模型的使用方式,单一(Single Model)或者聚合(Ensemble Model)。理论上Ensemble Model效果更好,但是会占用更多的计算资源;没有特别特别特别高的要求的话,建议选择Single Model就可以
(5)Choose Main Model:不想花费太多心力去测试的话,选择Single Model模式下的HP2_3BAND_44100_MSB2.pth就可以
(6)左侧的GPU Conversion:有英伟达显卡并安装了cuda的用户可以选择,处理速度超级快,没有勾选这个,就会只用cpu处理,一般来说,会慢个几十倍。如果没有安装cuda,选这个选项没用。
(7)TTA:此选项执行测试时间增强以提高分离质量。
注意:选择此选项会增加完成转换所需的时间。
(8)Post Process:此选项可能会识别人声输出中剩余的乐器伪影。此选项可能会改善某些歌曲的分离效果。
注意:选择此选项可能会对转换过程产生不利影响,具体取决于轨道。因此,仅建议作为最后的手段。
(9)Output Image:选择此选项将包括.jpg格式的频谱图,用于乐器和人声音频输出。
(10)Model Test Mode:
仅在使用“Single Model”转换方法时可选择。此选项使用户可以更轻松地测试不同模型和模型组合的结果,消除了在通过多个模型处理相同轨道时手动更改文件名和创建新文件夹的麻烦。此选项构建模型测试过程。
选择了这个模式的时候, 程序会自动在你选择的文件夹里面生成一个新文件夹。
新的自动生成文件夹将以所选模型命名(不再是上述的默认命名)。
输出的音频文件将保存到自动生成的目录中。
乐器和人声输出的文件名将附加选定的模型名称,避免了测试多个模型而造成覆盖的问题。
(11) Save All Outputs:再选择了”Ensemble Model”之后会出现这个选项,这个选项会保存Ensemble的模型中的每个模型结果,当这个选项没有被勾选时,应用程序将自动删除单个模型生成的所有单独转换。
(12)打开导出目录:此按钮将打开您的“Save to”的目录。可以在“Start Conversion”按钮的右侧找到这个图标。
点击Start Conversion就可以开始运行,Window Size为512的情况下,GPU和CPU的用的时间如下图所示

歌曲时长为3分40,是无损文件。所有输出文件都会是.wav为后缀的音频文件。
效果的话:足以秒杀大部分网站和很多商业软件,而且很多网站就是用的这个……
有能力的人可以探索更多使用方法哟……不过机器不好不推荐太折腾
作者:明沙 https://www.bilibili.com/read/cv16499556 出处:bilibili
1 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
2 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
3 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
暂无评论内容