首页  >  教程  >  文章
2023-12-05 13:05

【AI声音克隆工具推荐】微软出品VALL-E X模型:只需上传三秒个人录音,即可轻松克隆你的声线,离线包解压直接部署

之前给大家分享过一款网易有道出品的AI语音生成工具EmotiVoice,很多人表示挺有用的,但它只有预设的2000多种语音,能玩一年,但暂时不能定向训练专属音色。

相关阅读🔗:

最近的确接到不少的反馈,后台私信咨询我:有没有那种可以投喂自己上传的音频,然后生成专属声音的AI工具。

宠粉如我,肯定就要尽快支持啦!

图片

今天就来分享一款有趣的开源项目:VALL-E X,它号称只需要三秒录音,即可克隆你的声音,而且为大家制作了一款懒人包。

VALL-E X简介

VALL-E X是微软开源的一款语音处理模型,只需要源语言中的一些语音语句作为提示,就可以生成高质量的目标语言的语音片段,同时还能保留源语言中说话者的声音、情感和声学环境。只需要上传一段3~10 秒的语音作为音频提示,然后输入你想要合成的文本,即可快速生成语音。

而且,这个模型还能有效解决外语口音问题,使生成的语音非常逼真。

图片

离线整合包快速上手

下载解压整合包到本地,双击“一键启动-VALL-E X.exe”:

图片

之后会打开一个命令提示窗口,等待项目加载。

加载成功后,会自动打开一个网页,就可以快乐地玩耍了(如果没有自动打开,请在浏览器自行输入以下网址访问“http://127.0.0.1:7860”):

图片

使用非常简单:只需要上传一段语音,输入需要的文本,然后点击“生成”按钮,等待一会即可获得需要的语音文件。

生成的声音是基于上传的语音文件训练所得,理论上只要有3秒的原始音频,即可无限生成你想要的任何声音,简直不要太爽!建议多生成几次,选择效果最好的使用。

Hugging Face上也上线了这款大模型提供体验:

注意事项:

①首次运行需要下载部分模型,请使用魔法以免下载失败;

没有具备魔法的朋友,可以自行下载模型,并放置到以下目录中“C:\Users\你的用户名\”这个路径下。

模型下载地址:

图片

②该项目需要显存6G,过低显存可能无法使用这款软件。

点击我的头像,关注我的微信公众号,私信发送关键词段【VALL-E X】,免费获得本文资源~

7

相关文章