
EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
EMO (Emote Portrait Alive) 效果演示demo:
https://img.pidoutv.com/wp-content/uploads/2024/03/1453312183-1-16.mp4
EMO (Emote Portrait Alive) 项目地址
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO(Emote Portrait Alive)的功能特点
- 音频驱动的视频生成:EMO系统基于音频信号来驱动肖像视频的生成。用户只需要提供一张参考图片和一段音频,EMO便能根据音频内容,如语音的节奏、音调和音量等,来生成对应的人物面部表情和头部动作。
- 丰富的表情和动作:EMO能够精准地捕捉人类微妙的表情细节,并生成多样化的头部动作。这使得生成的视频具有高度的真实感和强烈的表现力,仿佛照片中的人物真的在唱歌、说话或者做其他动作。
- 保持人物身份一致性:不论音频的时长如何,EMO都能生成与参考图片中人物身份一致的动态视频。这使得生成的视频具有连续性和统一性,用户可以根据需要生成任意长度的视频。
- 跨语言和多场景应用:EMO不仅能处理不同语言的音频,如中文、英文等,还能应用于多种场景,如使古代画像动起来、生成具有逼真动作和表情的三维或AI生成内容等。这展示了其广泛的适用性和灵活性。
- 同步性和节奏感:EMO能够驾驭快速节奏的音频,确保生成的视频与音频保持同步。这使得生成的肖像视频在演唱快速歌曲或进行快速对话时,仍然能够保持流畅和连贯。
- 个性化风格保留:在生成动态视频的过程中,EMO能够保持面部特征的个性化风格,使得生成的视频不仅具有动态效果,还能保留原始图片中的人物特色。
EMO (Emote Portrait Alive) 的技术原理
- 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
- 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
- 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
- 生成视频:EMO利用骨干网络获取多帧噪声潜在输入,并尝试在每个时间步将它们去噪到连续的视频帧。骨干网络采用类似于SD 1.5的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。
- 注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。
- 时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。
- 训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。速度层的训练专注于调整角色头部的移动速度和频率。
- 去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。
EMO模型通过这种结合使用参考图像、音频信号和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。
数据统计
相关导航

Janus-Pro是由 DeepSeek AI 开发的先进多模态 AI 模型,专注于实现图像理解与图像生成的无缝结合。Janus-Pro 通过优化的训练策略、扩展的训练数据和更大的模型规模,在多模态理解和文本到图像生成方面取得了显著进步。

Gen-3 Alpha
Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入(如文本描述、图像或视频片段)创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

CineMaster
CineMaster是一个3D感知和可控的文本到视频生成框架,旨在帮助用户创建高质量的电影视频。该框架通过两个阶段的工作流程,赋予用户专业电影导演般的控制力,允许他们在 3D 空间中精确地放置场景中的对象,并灵活地操控对象和摄像机。

LTX Video
LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构,能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频,生成速度比观看速度还要快。

天谱乐
天谱乐是唱鸭旗下的AI音乐品牌,为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐,让创作变得简单便捷。利用先进的多模态理解与生成技术,天谱乐能够生成与图片和视频情感高度契合的音乐,并提供发行级的歌曲创作服务。无论是专业音乐人还是普通爱好者,天谱乐都能帮助您高效创作出独一无二的音乐作品。

光语金帆
光语金帆 是由无限光年公司推出的金融大模型,结合了顶尖的人工智能技术和人才资源,旨在构建超越客户期望的人工智能生成内容(AIGC)产品组合,推动金融行业生产力和用户交互体验的全面提升,实现金融服务的智能化、公平化和普惠化。

HoloDreamer
HoloDreamer是一款文本驱动的3D场景生成框架,通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成,该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreamer在虚拟现实、游戏和影视行业中有广泛应用,为这些领域提供了新的解决方案。

YuE
YuE是由香港科技大学开发的开源音乐生成模型,专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言,能够生成高质量的声乐和伴奏部分,适用于各种音乐创作需求。通过 YuE,用户可以轻松生成长达 5 分钟的完整歌曲,实现创意音乐制作。
暂无评论...