阿里开源数字人工具：让照片开口说话，效果惊艳到爆！

想象一下，当你在博物馆中欣赏一幅古老的人物画作时，你不再需要阅读旁边枯燥的说明文字。画作本身就会向你讲述它的故事，描述它的创作背景，甚至透露出画家的情感和意图。这不仅是一次视觉的享受，更是一次心灵的触动。

甚至在我们的日常生活中，当我们翻看家庭相册时，那些尘封的记忆可以被重新唤醒。每一张照片都能讲述它背后的故事，让我们重新体验那些珍贵的时刻。

本文我将介绍阿里蚂蚁集团开源的 “让照片说话” 的 AI 开源项目 —— EchoMimic。

EchoMimic 是一个创新的肖像视频动画生成技术，它能够通过音频信号和面部关键点两种驱动方式，以及它们的组合来生成生动的肖像视频。该技术基于 Stable Diffusion（SD）框架，采用了 Latent Diffusion Model（LDM）和 Variational Autoencoder（VAE），通过向潜空间表示中引入高斯噪声并进行去噪过程来生成图像。

EchoMimic 的核心是 Denoising U-Net 架构，它包括 Reference U-Net、Landmark Encoder 和 Audio Encoder 三个专门的模块，以及 Temporal Attention Layer，用于确保视频序列的时间一致性。

近期热文

EchoMimic 官方示例

音频驱动唱歌‍‍‍‍‍‍‍

音频驱动讲英文‍‍‍‍

音频驱动讲英文

音频驱动讲中文‍

音频驱动讲中文

EchoMimic 快速上手

克隆项目

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

创建虚拟环境

conda create -n echomimic python=3.8
conda activate echomimic

安装依赖项目

pip install -r requirements.txt

下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

下载 ffmpeg-static

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

运行推理

  python -u infer_audio2vid.py
  python -u infer_audio2vid_pose.py

https://github.com/BadToBest/EchoMimic

往期文章

欢迎您与我交流 AI 技术/工具

关注 AI 真好玩，带你玩转各类 AI 工具，掌控数字未来！

如果这篇文章对您有所帮助，请点赞、关注，并分享给您的朋友。感谢您的支持！

忆秋年博客 http://blog.xj.cn

然后我是鱼

阿里开源数字人工具：让照片开口说话，效果惊艳到爆！

近期热文

EchoMimic 官方示例

EchoMimic 快速上手

往期文章

视频号和小红书赚钱的本质区别

免费教程｜10分钟克隆自己，数字人实践教程！

jianpi

评论 |