我花了二周时间整合了一个数字人合成系统

先说下为什么做这个系统。当前市面上有不少的数字人合成系统,但是他们的做法基本上都是缝合了若干个开源系统。

比如数字人形象生成整合了

Easy- wav2lip,Wav2lip-HD,MuseTalk,DH-Live等系统。

要知道目前开源的数字形象系统没一个能商用的,整合再多的也无济于事,而且每一个系统的资源开销占用都超出了普通电脑的负载能力,更别说一下子整合这么多系统。

这种做法不仅对用户不友好,对开发者来说也不是一件容易的事情,因为每个系统都有自己独立的依赖版本,整合不同的系统面临相当大的改造成本,开发者必须保证不同系统使用的依赖包能兼容,为此,可能不得不大幅度修改源码,这不是一般人能做得了的。所以,我相信,这类整合系统的做法只能是采用虚拟隔离,即创建了多个虚拟环境,这个做法虽然减轻了开发者的负担,但是把复杂和不灵活留给了用户。

那我们该怎么做呢?

首先,我整合了基本能商用的高清版本的wav2lip,而不是采用其他开源的系统,刚才说了,无论你用哪个开源的数字形象系统,其效果也只是玩具而已。

其次,声音克隆系统,我整合了目前效果还算不错的GPTSovits。

这两个系统虽然很多地方存在包的冲突,但是为了避免多虚拟环境带来的额外开销,我将二者代码重写,整合成一个独立的系统,提供更易于用户使用的交互界面,不仅大大减少了系统的总大小,而且无论是在用户使用还是系统开发上都更灵活。

整个系统开发开发下来,整整耗费了单人2周的时间精力,来看看我整合后的系统功能截图:

从tab上看,它支持声音复刻和视频合成,其中视频合成支持批量合成:

20240910205256102

在声音复刻方面,它支持中文声音复刻和多语种声音复刻,包括中日英韩粤语。

在视频合成方面,支持语音驱动视频,也支持文字驱动视频:

20240910205259418

20240910205303957

最后是重头戏:批量合成,它支持导入批量文本文件,自动生成语音并且合成数字人,这是真正提高生产力的功能。

20240910205308496

后续我们准备把自媒体账号系统打通,真正做到日头千稿。敬请期待!

目前系统正在打包,即将发布,支持Windows和Linux。下载地址,请关注本公众号和网站后续推送。

网站地址:

https://www.mindtechassist.com/

 

阅读剩余
THE END