我花了二周时间整合了一个数字人合成系统

先说下为什么做这个系统。当前市面上有不少的数字人合成系统，但是他们的做法基本上都是缝合了若干个开源系统。

比如数字人形象生成整合了

Easy- wav2lip，Wav2lip-HD，MuseTalk，DH-Live等系统。

要知道目前开源的数字形象系统没一个能商用的，整合再多的也无济于事，而且每一个系统的资源开销占用都超出了普通电脑的负载能力，更别说一下子整合这么多系统。

这种做法不仅对用户不友好，对开发者来说也不是一件容易的事情，因为每个系统都有自己独立的依赖版本，整合不同的系统面临相当大的改造成本，开发者必须保证不同系统使用的依赖包能兼容，为此，可能不得不大幅度修改源码，这不是一般人能做得了的。所以，我相信，这类整合系统的做法只能是采用虚拟隔离，即创建了多个虚拟环境，这个做法虽然减轻了开发者的负担，但是把复杂和不灵活留给了用户。

那我们该怎么做呢？

首先，我们整合了基本能商用的高清版本的wav2lip，而不是采用其他开源的系统，刚才说了，无论你用哪个开源的数字形象系统，其效果也只是玩具而已。

其次，声音克隆系统，我整合了目前效果还算不错的GPTSovits。

这两个系统虽然很多地方存在包的冲突，但是为了避免多虚拟环境带来的额外开销，我将二者代码重写，整合成一个独立的系统，提供更易于用户使用的交互界面，不仅大大减少了系统的总大小，而且无论是在用户使用还是系统开发上都更灵活。

整个系统开发开发下来，整整耗费了单人2周的时间精力，来看看我整合后的系统功能截图：

从tab上看，它支持声音复刻和视频合成，其中视频合成支持批量合成：

我花了二周时间整合了一个数字人合成系统