免费语音克隆神器,让川普来段中文绕口令?FishSpeech 5 分钟部署实战
拍短视频,开始的时候是真人语音,之后是电脑配音,今年年初剪映上线了克隆语音,很多人都用起来了。 想要克隆别人的语音怎么办? 之前需要用 GPT-SoVITS 训练声音模型,操作复杂,对电脑配置要求较高,关键是生成时间非常长,这对小白来说还是很有挑战的。 不过,随着开源社区的努力,语音克隆已经零门槛了,一个人人有嘴替的时代已经到来。 上一篇:cosyvoice 给大家介绍了一款语音合成/克隆工具,今天再分享一款同样火爆的语音合成工具 - 有了这款语音克隆神器,再配合上其他 AI 工具,帮你哗哗涨粉,绝绝子。 本文分享,带大家在线体验 老规矩,先来简单介绍下~ 且看官方是怎么宣传的: 真的假的?我们一起探究一番! ❝ 体验地址:https://fish.audio/zh-CN/ 虽是个开源项目,但是官方提供了在线网站,随手就使用,每天免费送你 50 配额,可以生成 50 条音频。 官方提供了上百款音色,供你选择,其中爆火的 此外,创作者也可以上传自己训好的音色,比如川普、邓紫棋…… 搜索即用,无需自己训练。 既然川建国的粉丝这么多,给川普安排上一段绕口令怎么样? 给大家展示两段,看看效果如何? 合成文本1: 语音合成效果: 合成文本2: 语音合成效果: 官网那么多音色模型,没你满意的? 来吧,自己训练一个: 注意:声音文件时长最短10秒,最长45秒,不出 2 分钟,你的声音模型就 Ready 了。 创建成功后,在 有一说一:Fish Speech 从情感、语速、语调、音色训练各方面都是OK的!速度极快! 但不要输入太长文本,否则会罢工的~ 官方给开发者也提供了 API 调用,新人注册有 10 元的免费体验额度: 当然,如果你有机器,完全可以自己本地部署一个,毕竟项目是开源的嘛! 下面,我们一起动手实操一番。 ❝ 项目地址:https://github.com/fishaudio/fish-speech/ 项目文档:https://speech.fish.audio/ 这部分我们采用趋动云的 GPU 实例给大家做演示,申请一个 6G 显存的实例就够。 新人注册送 100 点算力,还没注册的小伙伴赶紧去薅羊毛,:趋动云注册 不了解项目创建流程的小伙伴可以参考这篇:CosyVoice 实测,阿里开源语音合成模型,3s极速语音克隆 新建一个项目,把我已经建好的模型和镜像挂载进来。 模型: 镜像: 如果挂载了上面的模型和镜像,可直接跳转到 为了从0到1完成整个项目, 首先从 huggingface 国内镜像站下载模型到本地,记得删除其中的 .git 文件夹(占用上传空间)。 回到趋动云控制台,点击模型,进行上传,选择 上传代码: 后面发现,这里目标路径最好带上模型名,也即 实测上传速度在 10M/s 左右。 点击下方 PS:模型已公开,大家在项目中加载下面的模型即可: 下载项目并安装依赖项: 会安装根目录 有没有其他解决方案? 官方提供了 docker 镜像,不过趋动云分配的云实例本身就是个 docker 容器,当然无法在容器中安装 fish-speech 的 docker 镜像。 怎么知道的?输入下方指令试试吧~ 因此,这里提供两个方案: 方案一:找一个支持 这样,每次重启项目后,激活这个环境即可,无需重新安装依赖了。 方案二:用 dockerfile 在平台上构建一个镜像,项目依赖这个镜像即可: Dockerfile 中编写内容如下: 如果镜像加载进来后遇到如下报错: 这是 PyTorch 和 NCCL 版本与 CUDA 版本不兼容的问题,建议重新使用 conda 重新安装对应 CUDA 版本的 Pytorch,比如我这里用的是 CUDA 12.1 的镜像: PS:我已把所有环境依赖做好了镜像,大家在项目中加载下面的镜像即可。 如果还没下载模型,请移步 3.1 完成模型准备。 我们这里直接使用挂载的模型文件: 模型准备好之后,推理分为几个部分: 我们一步步来: 项目中已经提供了部署代码,服务端一键启动代码如下: 客户端调用需要先安装 pyaudio: 然后调用 其中 项目中支持一键部署 webui: 如果需要声音克隆,记得打开下方的 代码中,默认对于长文做了自动切分。Gradio 界面底部也可以看到 API 调用。 给大家看下,显存占用情况: 模型推理,只占用 < 2G 显存,相比 CosyVoice 的 6G 显存,优势显著~ 还记得之前克隆语音,又是训练模型又是高配电脑,小白表示压力山大啊。 现在,Fish Speech 来了,零门槛,傻瓜式操作,简直是视频创作者的新宠啊。 本文带着大家先在官网上体验了一把,海量音色任你挑! 接着从准备模型到环境配置,再到服务部署,完成了 Fish Speech 的私有化部署~ 良心之作 Fish Speech 只需不到 2G 显存就能运行,赶紧去试试吧!
Fish Speech
,使用起来更为方便。Fish Speech
,并在本地部署起来,方便随时调用。1. Fish Speech 简介
2. 在线体验
2.1 海量音色样板
丁真
已经被配音了18w+:2.2 语音合成初体验
扁担长,板凳宽,扁担没有板凳宽,板凳没有扁担长。
扁担绑在板凳上,板凳不让扁担绑在板凳上。
细蝉吸细竹枝汁,
细竹枝汁细蝉吸。
细蝉吸汁竹枝细,
细竹枝细汁蝉吸。
2.3 声音克隆
我的声音
中可以查看。2.4 API 调用
3. 本地部署
3.1 申请云实例
3.4 本地测试
。3.2
和 3.3
分别带大家完成模型准备和环境准备。3.2 模型准备(可选)
git clone https://hf-mirror.com/fishaudio/fish-speech-1.2-sft
SFTP
传输方式。put -r D:/data/projects/fish-speech-1.2-sft/ /upload
/upload/fish-speech-1.2-sft
,否则挂载进来时不带模型名。传输完成,关闭通道
,刷新一下,右侧可以看到文件目录确定
,生成一个模型版本。至此,我们的模型就准备好了。3.3 环境准备(可选)
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
pip install -e .
apt update
apt install libsox-dev
pyproject.toml
中指定的所有依赖项,不过安装过程实在太痛苦了(太慢了)!systemd-detect-virt -c
conda
的镜像,在 /gemini/code
目录下创建一个 conda 虚拟环境,这个环境会持久保存。conda create --prefix /gemini/code/envs/fish python=3.10
conda activate /gemini/code/envs/fish
# Install system dependencies
RUN apt-get update && apt-get install -y git curl build-essential ffmpeg libsm6 libxext6 libjpeg-dev
zlib1g-dev aria2 zsh openssh-server sudo protobuf-compiler cmake libsox-dev &&
apt-get clean && rm -rf /var/lib/apt/lists/*
# 克隆代码库
RUN git clone https://mirror.ghproxy.com/https://github.com/fishaudio/fish-speech.git
# 设置工作目录
WORKDIR fish-speech
# 安装项目依赖
RUN pip install --no-cache-dir -e .
libtorch_cuda.so: undefined symbol: ncclCommRegister
# 参考:https://pytorch.org/
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
3.4 本地测试
mkdir checkpoints
ln -s /gemini/pretrain/ checkpoints/fish-speech-1.2-sft
python tools/vqgan/inference.py -i "gghy.wav" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
--prompt-text
需要和音频文件中的内容保持一致,--prompt-tokens
是刚生成的 fake.npy 文件,输出生成的语义 token,得到 codes_0.npy
文件python tools/llama/generate.py
--text "要转换的文本"
--prompt-text "你的参考文本"
--prompt-tokens "fake.npy"
--checkpoint-path "checkpoints/fish-speech-1.2-sft"
--num-samples 1
--compile
codes_0.npy
用 VQGAN 解码。python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
3.5 服务部署
3.5.1 服务端部署
python tools/api.py --listen 0.0.0.0:7860 --compile
3.5.2 客户端调用
sudo apt-get install portaudio19-dev
pip install pyaudio
tools/post_api.py
,发起请求:python tools/post_api.py --url 'http://127.0.0.1:7860/v1/invoke' --text "要输入的文本" --reference_audio gghy.wav --reference_text '随着
大军缓缓前进,他忍不住琢磨起了回京之后会被派到什么艰苦的地方。顶缸。要知道皇帝一向就是这么干的,几乎没让他过过什么安生日子。'
--url
修改为服务端的 IP 地址。更多参数设置可参考 tools/post_api.py
。3.6 WebUI
python tools/webui.py
Enable Reference Audio
选项。3.7 显存占用情况
写在最后