基于欧氏距离解缠的多角度跨库人脸表情识别-AET-电子技术应用

基于欧氏距离解缠的多角度跨库人脸表情识别

信息技术与网络安全 11期

梁广

(中国科学技术大学网络空间安全学院，安徽合肥230026)

摘要： 当前，人脸表情的识别受数据库偏差和姿势角度差异的影响。为了解决这个问题，提出了一个基于特征解缠的跨数据库无监督学习模型。该模型包含三个主要策略：基于欧氏距离的多属性解缠策略，表情特征内部的对比学习策略，对抗领域自适应策略。该方法首先得到表情、姿势和库相关的特征，并在欧氏空间解缠不同属性的特征。对比学习可以使相同表情标签的特征逼近，不同表情标签的特征疏远。对抗领域自适应策略使得未被学习的目标库样本和已学习过的源库样本的特征分布逼近。该方法在8个公开的数据库上展开实验，得到了充分的验证。

关键词： 人脸表情识别特征解缠跨库对比学习

中图分类号： TP37
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2021.11.005
引用格式：梁广. 基于欧氏距离解缠的多角度跨库人脸表情识别[J].信息技术与网络安全，2021，40(11)：29-36.

Euclidean distance disentanglement adaptive method for multi-view cross-database facial expression recognition

Liang Guang

(School of Cyberspace Science and Technology，University of Science and Technology of China，Hefei 230026，China)

Abstract： At present, the accuracy of face expression recognition is affected by database biases and posture variations. To solve this problem, this paper proposes a novel cross-database unsupervised learning model based on feature disentanglement. There are three strategies in this model：multiple attribute features disentanglement, contrastive learning within face expression feature, adversarial domain adaptation. The feature disentanglement can get expression-related, pose-related and database-related features, and try to separate the features of different attributes. Contrastive learning can make expression features of the same label closer, and expression features of the different labels as far apart as possible. Adversarial domain adaptive learning makes the unseen sample′s features closer to sample′s features of the training database. Our experiments are carried out on 8 databases and achieved state of the art results.

Key words : facial expression recognition；feature disentanglement；cross database；contrastive learning

0 引言

如今，人脸表情识别相关研究的热度逐渐上升。相应的技术也应用于教育质量评估、刑事审讯等多个领域。然而，当前的很多研究主要关注于相同数据库上的人脸表情识别，即训练样本和测试样本都来自于同一个数据库。由于不同表情数据库在人种、背景和光照等存在差异，表情识别的效果受到很大的影响[1]。同时，人脸图片也包含多个不同姿势，不同姿势之间的差异也导致了表情识别准确率的下降。研究者当前也在研究降低数据库和姿势所带来影响的方法。

由于姿势的差异对表情识别有明显的影响，研究人员提出了三大类方法来消除表情识别中的姿态差异：姿势规范化方法[2]；单分类器方法[3-4]；姿势鲁棒的特征方法[5-8]。由于正脸的表情识别准确率高于侧脸，研究者使用姿势规范化的方法将侧脸图像转换成正脸图像来进行识别表情。然而，用来测试的目标数据库通常缺失同一个人的正-侧脸数据对。这也导致了侧脸图像在通过生成式对抗网络[9](Generative Adversarial Networks，GAN)生成正脸的过程中存在失真，影响表情识别效果。对于单分类器方法，研究者使用单个分类器来识别多种姿势下的表情。这种方法需要大量不同姿势的图像来训练单一分类器，而现实中很难得到足够多的多角度图像。而姿势鲁棒的特征方法尝试训练一个编码器来生成对姿势差异鲁棒的表情特征。这种方法在特征层面降低了表情特征中的姿势噪声，同时不需要大量的目标数据库样本，也无需生成伪样本。因此本模型选择了姿势鲁棒的特征方法来降低姿势差异。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003845

作者信息：

梁广

(中国科学技术大学网络空间安全学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容