阿里开源数字人工具:让照片开口说话,效果惊艳到爆!

想象一下,当你在博物馆中欣赏一幅古老的人物画作时, 你不再需要阅读旁边枯燥的说明文字。画作本身就会向你讲述它的故事,描述它的创作背景,甚至透露出画家的情感和意图。这不仅是一次视觉的享受,更是一次心灵的触动。

甚至在我们的日常生活中,当我们翻看家庭相册时,那些尘封的记忆可以被重新唤醒。每一张照片都能讲述它背后的故事,让我们重新体验那些珍贵的时刻。

本文我将介绍阿里蚂蚁集团开源的 “让照片说话” 的 AI 开源项目 —— EchoMimic。

EchoMimic 是一个创新的肖像视频动画生成技术,它能够通过音频信号和面部关键点两种驱动方式,以及它们的组合来生成生动的肖像视频。该技术基于 Stable Diffusion(SD)框架,采用了 Latent Diffusion Model(LDM)和 Variational Autoencoder(VAE),通过向潜空间表示中引入高斯噪声并进行去噪过程来生成图像。

EchoMimic 的核心是 Denoising U-Net 架构,它包括 Reference U-Net、Landmark Encoder 和 Audio Encoder 三个专门的模块,以及 Temporal Attention Layer,用于确保视频序列的时间一致性。

近期热文

EchoMimic 官方示例

音频驱动唱歌

音频驱动讲英文

音频驱动讲英文

音频驱动讲中文

音频驱动讲中文

EchoMimic 快速上手

  1. 克隆项目
git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic
  1. 创建虚拟环境
conda create -n echomimic python=3.8
conda activate echomimic
  1. 安装依赖项目
pip install -r requirements.txt
  1. 下载预训练权重
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights
  1. 下载 ffmpeg-static
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
  1. 运行推理
  python -u infer_audio2vid.py
  python -u infer_audio2vid_pose.py

https://github.com/BadToBest/EchoMimic

往期文章

欢迎您与我交流 AI 技术/工具

关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!

如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!

 

阅读剩余
THE END