一种基于牙齿运动一致性的细粒度说话人脸生成方法

本发明涉及计算机视觉处理，具体涉及一种基于牙齿运动一致性的细粒度说话人脸生成方法。

背景技术：

1、音频驱动的说话人脸生成技术是计算机视觉和图像生成领域的重要研究方向，其核心在于同步视频中人物的嘴型与输入音频，以生成逼真的说话人脸视频。这项技术在娱乐、增强现实以及人机交互等多个领域具有广泛的应用前景。目前基于音频驱动的说话人脸生成方法主要采用卷积神经网络来实现面部生成和唇形同步。这些方法通常通过多层上采样和空间变形技术来增强面部细节，或通过学习音频与视觉数据的中间表示来改善面部特征生成。尽管现有技术可以生成外观逼真的说话视频，在一定程度上实现了音频与视觉的同步，但在保持视频中面部细节的连续性和自然性方面仍面临挑战。特别是在牙齿运动的连续性和清晰度处理上，现有技术往往忽视了这一问题，导致生成的视频中牙齿运动不连贯，视觉特征模糊，从而影响视频的真实感和自然度。因此，如何在生成过程中充分考虑牙齿运动对模型生成能力的影响，并确保面部细节的精细重现，成为当前任务的主要挑战。

2、针对这些问题，本发明提出了一种基于牙齿运动一致性的细粒度说话人脸生成方法，通过精确估计牙齿运动并优化面部特征，并设计相应的损失函数对模型训练进行约束，实现唇形与音频同步，确保牙齿运动的连续性，从而生成高保真、自然且逼真的说话人脸视频。

技术实现思路

1、为解决上述技术问题，本发明提供一种种基于牙齿运动一致性的细粒度说话人脸生成方法，通过精确的牙齿运动估计和面部特征优化，实现了高保真的面部生成。具体而言，本发明设计了牙齿运动估计模块和面部特征优化模块，并引入牙齿运动一致性损失、牙齿形状损失及多尺度人脸感知损失，结合图像重建损失和同步损失，最终得到了能够输出具有牙齿运动一致性和自然唇形同步的细粒度说话人脸视频的生成模型。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种基于牙齿运动一致性的细粒度说话人脸生成方法，将驱动音频和视频文件输入到完成训练的生成模型，得到人脸说话视频；生成模型的训练过程包括：

4、对包含人脸的视频文件进行切片、音频分离，得到视频片段和对应的驱动音频；从视频片段中提取源人脸图像的序列和参考人脸图像的序列；

5、基于驱动音频、和，通过说话人脸基础生成器得到生成图像的序列，即得到人脸说话视频，基于和构建重建损失；基于生成图像和驱动音频的同步概率构建同步损失；

6、通过牙齿运动估计模块提取源人脸图像的牙齿区域掩码，预测牙齿的运动流，计算基于牙齿区域掩码的预测牙齿运动流和真实牙齿运动流之间的差异，构建一致性损失；

7、通过生成图像与源人脸图像的牙齿区域特征的l1距离，构建形状损失；通过对生成图像和源人脸图像进行下采样得到的结果，构建感知损失；

8、基于、、、、对生成模型进行训练。

9、进一步地，所述说话人脸基础生成器包括人脸特征编码器、音频特征编码器、人脸特征解码器和同步判别器；

10、对源人脸图像进行关键点提取，将得到的上半面部掩码与源人脸图像进行乘积操作得到蒙版图像的序列；人脸特征编码器由残差卷积层组成，用于对输入的蒙版图像的序列和参考人脸图像的序列进行编码，得到蒙版图像特征和参考人脸图像特征；

11、音频特征编码器采用2d卷积层堆叠处理驱动音频对应的梅尔频谱特征，生成音频编码特征；

12、将音频编码特征、参考人脸图像特征和蒙版图像特征沿通道轴进行拼接，形成拼接特征；人脸特征解码器由卷积层和上采样层组成，接收所述拼接特征并输出生成图像的序列；

13、同步判别器，采用预训练的syncnet网络模型，用于计算生成图像和驱动音频的同步损失。

14、进一步地，所述基于驱动音频、和，通过说话人脸基础生成器得到生成图像的序列，即得到人脸说话视频，基于和构建重建损失；基于生成图像和驱动音频的同步概率构建同步损失，具体包括：

15、源人脸图像的序列经过人脸关键点检测，生成上半面部掩码，遮挡住牙齿区域；将源人脸图像的序列与上半面部掩码相乘得到蒙版图像的序列：

16、；

17、分别对和进行编码，得到蒙版图像特征和参考人脸图像特征；

18、将音频编码特征、参考人脸图像特征和蒙版图像特征沿通道轴进行拼接，形成拼接特征；

19、拼接特征输入到人脸特征解码器，得到生成图像的序列；

20、通过计算生成图像特征与源人脸图像特征之间的差异来构建所述重建损失：

21、；

22、为源人脸图像的序列中的源人脸图像总数量，为f1范数，为第t张生成图像的生成图像特征，为第t张源人脸图像的源人脸图像特征；

23、采用二元交叉熵损失来构建同步损失：

24、；

25、表示第j张生成图像中唇形与对应音频的同步概率；

26、采用余弦相似度来计算人脸说话视频的同步概率，使用relu函数激活后的生成图像特征和音频编码特征之间的点积，表示输入的驱动音频和对应的生成图像的同步可能性：

27、；

28、表示f2范数；表示常数；表示取最大值。

29、进一步地，所述牙齿运动估计模块包括预训练的面部关键点提取器和运动估计网络；所述运动估计网络采用编码器-解码器架构；所述编码器包括多个卷积块，编码器的每个卷积块包含卷积层、leaky relu激活函数和平均池化层；卷积层用于提取关键点和纹理信息，leaky relu激活函数提供非线性激活，平均池化层用于下采样；

30、解码器包括多个卷积块，解码器的每个卷积块包括双线性上采样层和卷积层。

31、进一步地，所述通过牙齿运动估计模块提取源人脸图像的牙齿区域掩码，预测牙齿的运动流，计算基于牙齿区域掩码的预测牙齿运动流和真实牙齿运动流之间的差异，构建一致性损失，具体包括：

32、将源人脸图像序列中的两个相邻的源人脸图像和，输入到运动估计网络中，预测从到的源人脸牙齿前向运动流，以及从到的源人脸牙齿反向运动流；通过预训练的面部关键点提取器分别提取源人脸图像和中的牙齿区域，生成中第t-1张源人脸图像的牙齿区域掩码，以及中第t张源人脸图像的牙齿区域掩码；

33、将生成图像序列中的两个相邻的生成图像和输入到运动估计网络中，预测从到的生成人脸牙齿前向运动流，以及从到的生成人脸牙齿反向运动流；

34、将预测的前向运动流和反向运动流与牙齿区域掩码进行点积运算，得到最终的预测牙齿运动流；使用一致性损失来量化预测牙齿运动流与基于牙齿区域掩码的真实牙齿运动流之间的差异：

35、；

36、其中，为源人脸图像的序列中的源人脸图像总数量，为f1范数。

37、进一步地，所述通过生成图像与源人脸图像的牙齿区域特征的l1距离，构建形状损失；通过对生成图像和源人脸图像进行下采样得到的结果，构建感知损失；具体包括：

38、将牙齿区域掩码分别与生成图像序列中的第t张生成图像的生成图像特征和源人脸图像序列中的第t张源人脸图像的源人脸图像特征相乘，得到生成图像的牙齿区域特征和源人脸图像的牙齿区域特征：

39、；

40、；

41、通过计算和的l1距离，构建形状损失：

42、；

43、其中，为f1范数；

44、使用预训练的vgg19网络对生成图像和源人脸图像分别进行下采样，得到下采样后的生成图像和下采样后的源人脸图像，并计算感知损失：

45、；

46、其中，k表示vgg19网络中总层数，表示vgg19网络的第n层特征，为梯度中断函数，为源人脸图像的序列中的源人脸图像总数量，、、分别表示第n层特征的长度、宽度以及通道数。

47、进一步地，所述从视频片段中提取源人脸图像的序列和参考人脸图像的序列，具体包括：源人脸图像的序列和参考人脸图像的序列采样自同一短视频片段的不同时间段。

48、进一步地，所述基于、、、、对生成模型进行训练，具体包括：

49、对生成模型训练时采用的总损失函数为：

50、；

51、其中、、、和均为权重参数。

52、与现有技术相比，本发明的有益技术效果是：

53、首先，本发明通过牙齿运动估计模块，显著提升了牙齿运动的连续性和自然度，解决了传统技术在牙齿动画生成中存在的不连贯问题。其次，利用面部特征优化模块，引入牙齿形状约束和多尺度面部感知约束，有效增强了面部细节的清晰度和真实性。此外，本发明通过创新设计的损失函数，包括牙齿运动的一致性损失、牙齿的形状损失和多尺度面部的感知损失，实现了对生成图像质量的全面优化，进一步提升了图像的逼真度和视觉质量。通过这些技术的应用，本发明能够生成高质量、逼真的说话人脸视频，这些视频不仅在视觉上更具吸引力，而且在唇形同步和面部表情细节的呈现上也更加精准，充分满足了用户对高度真实感的需求。

技术特征：

1.一种基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，将驱动音频和视频文件输入到完成训练的生成模型，得到人脸说话视频；生成模型的训练过程包括：

2.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述说话人脸基础生成器包括人脸特征编码器、音频特征编码器、人脸特征解码器和同步判别器；

3.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述基于驱动音频、和，通过说话人脸基础生成器得到生成图像的序列，即得到人脸说话视频，基于和构建重建损失；基于生成图像和驱动音频的同步概率构建同步损失，具体包括：

4.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述牙齿运动估计模块包括预训练的面部关键点提取器和运动估计网络；所述运动估计网络采用编码器-解码器架构；所述编码器包括多个卷积块，编码器的每个卷积块包含卷积层、leaky relu激活函数和平均池化层；卷积层用于提取关键点和纹理信息，leaky relu激活函数提供非线性激活，平均池化层用于下采样；

5.根据权利要求4所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述通过牙齿运动估计模块提取源人脸图像的牙齿区域掩码，预测牙齿的运动流，计算基于牙齿区域掩码的预测牙齿运动流和真实牙齿运动流之间的差异，构建一致性损失，具体包括：

6.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述通过生成图像与源人脸图像的牙齿区域特征的l1距离，构建形状损失；通过对生成图像和源人脸图像进行下采样得到的结果，构建感知损失；具体包括：

7.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述从视频片段中提取源人脸图像的序列和参考人脸图像的序列，具体包括：源人脸图像的序列和参考人脸图像的序列采样自同一短视频片段的不同时间段。

8.根据权利要求1所述的基于牙齿运动一致性的细粒度说话人脸生成方法，其特征在于，所述基于、、、、对生成模型进行训练，具体包括：

技术总结
本发明涉及计算机视觉处理技术领域，具体涉及一种基于牙齿运动一致性的细粒度说话人脸生成方法，将驱动音频和视频文件输入到完成训练的生成模型，生成模型根据驱动音频调整视频文件中的唇形和牙齿，得到人脸说话视频；生成模型的训练过程包括：对视频文件进行切片采样，对得到多个视频片段进行音频分离；通过说话人脸基础生成器得到人脸说话视频；通过牙齿运动估计模块预测牙齿的运动流：通过面部特征优化模块进行牙齿形状约束和多尺度人脸感知约束；本发明显著提升了牙齿运动的连续性和自然度，解决了传统技术在牙齿动画生成中存在的不连贯问题；还引入牙齿形状约束和多尺度面部感知约束，有效增强了面部细节的清晰度和真实性。

技术研发人员：刘学亮,肖镇,洪日昌,汪萌
受保护的技术使用者：合肥工业大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)