MakeItTalk的魔力:让图片能够开口
最近,马萨诸塞大学阿默斯特分校的扬州博士和他的团队提出了一种新的方法,它的结构很深,"MakeItTalk。"假设一个音频信号和一个人类图像作为输入,这个模型将生成说话者感知的音频动画。
首先,整个面部表情包含了整个面部各个部分之间的关系。面部运动和言语之间的协调是一项困难的任务,因为面部动力学在高维多幅图像中起着主导作用,其中头部姿势是最关键的。
第二,多个说话人会有不同的说话方式,控制嘴唇一致,不足以理解说话人的性格,也能表达不同的个性。
为了回答这些问题,扬州博士和他的团队提出了一种新的方法,它有着深刻的结构"MakeItTalk。
这是一种具有深度结构的新方法,只有一个音频和一个面部图像作为输入,程序输出一个真实的"会说话的头部动画"。
接下来,让我们看看MakeItTalk是如何制作这张图片的"Talk"。
跟我说话!那神奇的声音是什么?
MakeItTalk是一种新的基于深度学习的建筑,它能识别面部标志、下巴、头部姿势、眉毛、鼻子和可以通过声音刺激改变嘴唇的伤口。
基于LSTM和CNN,该模型可以根据说话者的语调和内容来跟踪面部表情和头部。
从本质上讲,MakeItTalk将输入音频信号的内容从扬声器中分离出来,并从所得到的抽象表示中提取相应的动画。
嘴唇和相邻面孔之间的协调也特别重要。说话者的信息被用来获取其他面部表情和头部动作,这是产生表情性头部动画所必需的。
MakeItTalk模型不仅可以生成真实的人脸语音图像,还可以生成非真实感的卡通语音图像。
声音+图像=交谈"?MakeItTalk是如何做到的?
下图显示了生成真实的语音化身的完整方式和方法:
(1)音频剪辑和单个面部图像可以产生与音频协调的头部动画,并能感知说话者。
(2)在训练阶段,采用现成的人脸检测器对输入视频进行预处理,提取标记,从输入音频中训练基本模型,实现语音内容的准确提取到动画和标记中。
(3)为了获得高精度的运动,通过分离输入音频信号和嵌入说话人来检测标记点的估计,因此采用语音转换神经网络提取语音内容,找出语音内容。
(4)内容独立于说话人,捕捉嘴唇和相邻部分的共同动作,其中讲话内容调整动作的特征和说话者头部动作的其余部分。
(5)嘴唇的大小和形状随着眼睛、鼻子和头部的移动而扩大,这取决于谁说的话,即说话者的身份。
(6)最后,为了生成转换后的图像,MakeItTalk使用了两种算法来合成标记图像:
对于非真实感的图像,如画布艺术或矢量艺术,一种特殊的失真方法是在Delaunaytriangation的基础上展开。
对于真实的图像,一个图像到图像的转换网络(和像素2pix一样)是用来直接转换自然面孔的。
最后,将所有图像帧和音频混合生成头部动画。