新一代多姿态人脸识别技术,可在不受限制的场景中使用!

   电子分析员        

目前,深度学习驱动着人脸识别的快速发展。而在无约束情况下,面部姿态的变化会对人脸识别产生很大的影响。此外,目前的模型在准确性和鲁棒性方面还存在一些不足。现有的研究已经制定了解决上述问题的两种方法。一种方法是分别建模和训练每个姿势。然后,将做出一个核聚变决策。另一种方法是在图像或特征层面上做“正面”人脸,将其转换为“正面”人脸识别。基于第二种想法,研究人员提出了一个侧面到正面修正映射(PTFRM)模块。该模块实现了在特征层面上对任意位姿的修正,并将多位姿特征转化为近似的正面表示,以增强现有识别模型的识别能力。最后,研究人员评估了无约束人脸验证基准数据集的PTFRM,如野外标记人脸(LFW)、正面轮廓名人(CFP)和IARPA Janus基准测试A(IJB-A)。结果表明,本文所选择的方法取得了较好的效果。


相关论文以题为“Multi-Pose Face Recognition Based on Deep Learning in Unconstrained Scene”发表在《Applied Sciences》上。


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


近年来,深度学习的出现在人脸识别领域取得了巨大的成功。然而,在无约束的场景中,诸如光照变化、遮挡、姿态和表情等因素仍然在很大程度上影响人脸识别的准确性和鲁棒性。目前的模型在准确性和鲁棒性方面存在一些不足,特别是在角度和位姿变化较大的情况下。直观的看,主要原因是训练集中的人脸和多姿态人脸的数量高度不平衡,因为检测多姿态人脸比找到人脸困难。此外,考虑到姿态的变化,直接学习具有几何不变性的特征表示来应对较大的姿态变化是一个挑战。


现有基于深度学习的人脸识别方法主要包括以下几个模块:图像预处理、训练卷积神经网络(CNN)提取特征、人脸验证和识别。图像预处理包括人脸检测、对齐、归一化和随机翻转。它将人脸图像统一成一个固定的大小作为CNN网络的输入。通过相似测度或欧氏距离测度得到的投票分数与阈值进行比较,达到人脸验证与识别的目标。


在这项研究中,研究人员提出了一个基于剩余网(ResNet)的正面轮廓修正映射(PTFRM)模块。一方面,研究人员在输入图像时使用了一个姿态估计的分支,如图1所示。该分支对输入图像及其对应的关键点(左眼中心、右眼中心、鼻尖、左嘴角、右嘴角)进行计算,得到包含俯仰、偏航、滚动三个分量[1]的姿态估计。通过位姿映射函数得到每张人脸图像的位姿标签。另一方面,研究人员将PTFRM模块分支添加到CNN中。PTFRM模块由转换层(本文定义)、全连接层和批处理法线层组成。转换层以前一层的特征和新分支的位姿类作为输入。然后根据姿态类选择变换向量,实现对任意姿态特征的修正。在变换层之后,研究人员加入全连接层和batchnormal层,输出一个新的特征,它是近似的正面特征空间的表示。PTFRM模块实现了从多位姿空间到近似额角特征空间的转换。


如图1所示,根据位姿模块得到的位姿类别和共享CNN得到的基本特征,研究人员将隐含不同姿态信息的基本特征转化为近似的边界特征。研究人员还利用位损和软最大损失来约束网络参数的优化。


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


图1.基于轮廓到正面修正映射(PTFRM)模块的人脸识别方法。


PTFRM模块


图2显示了所提方法的原理。特征提取网络以不同姿态的人脸图像为输入,提取原始特征表示,通过PTFRM模块映射到近似的正面特征空间中。只需一个特征提取网络,在网络末端添加PTFRM模块,就可以在特征层实现“正面”姿态,极大地节省了空间和时间资源。这种方法保持了端到端的特性,使整个过程易于培训和验证。


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


图2.将多位姿特征变换为近似的额角特征。


PTFRM模块由一个自定义转换层、一个完全连接层和一个批处理法线层组成。转换层以CNN的特征和对应的位元类为输入,根据位元类控制投影矩阵,将原始的特征表示映射到新的特征表示。研究人员的基本目标是通过变换层将多位姿角特征空间的特征映射到近似的正面特征空间,这是一种在特征层次上的变换。与图像级的变换相比,该方法更有效、简洁。


图3显示了转换层的转换过程。表示人脸图像输入。前馈CNN的输出是,是一种基本的特征表示。


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


图3.转换层示意图。


优化目标


本研究中的映射函数并没有专门针对人脸的真实身份。只对人脸图像进行分类。只要具有相同姿态类的人脸不需要其身份标签,则相同的映射关系将基本特征映射为近似的正面特征表示。对于同一身份的人脸,PTFRM模块统一地将不同姿态的人脸特征转换为近似正特征。这个过程缩小了类之间的距离。但是,对于人脸特征相似、姿态相同、类别不同的人脸,经过PTFRM模块的映射处理后,新的特征表示仍然是相似的。因此,在优化过程中,必须考虑不同类别之间存在的小差异,如图4所示:


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


图4.阶级之间差别小的原因。


为了解决类间距离过小的问题,研究人员考虑使用身份标签作为约束。在映射模块输出特征后,研究人员为同一类的特征构造一个特征中心。特征中心是对同一个人正面人脸图像的标准特征表示。然后,研究人员构造一个优化函数来最小化所有相同恒等式的特征表示与特征中心之间的距离。这样,所有相似的特征表示都以特征中心为中心,增强了特征之间的凝聚力。


人脸识别


图5显示了人脸识别的测试协议。第一行是要测试的模板。模板中的所有图像都是相同的目标。下面的黑盒子是所有的搜索模板库。其中两个绿框为同一目标的模板,其余为不同目标的模板。在测试期间,研究人员将被测试的模板与搜索模板库中的模板逐一比较。然后,研究人员得到一个相似度列表。根据测试协议和场景的具体要求,研究人员可以找到一个或几个相似度最高的目标,并将其预测为与待测试模板相同的类。最后,将其与实际分类结果进行比较,以达到准确分类的目的。


新一代多姿态人脸识别技术,可在不受限制的场景中使用!


图5.IJB-A鉴定(1:N)测试协议。


结论


本研究针对无约束场景下的多位姿人脸识别问题,总结了现有的PAMs、DR-GAN、DREAM等方法的原理和不足。基于在特征层近似“正面”图像的核心思想,研究人员提出了PTFRM模块。该模块利用姿态标签和选择不同的映射关系对原始特征表示进行映射。然后,原始的特征表示成为近似的“正面”人脸的特征表示。该方法在保持网络端到端特性的同时,具有较高的资源利用率和较好的识别效果。


论文链接:https://www.mdpi.com/2076-3417/10/13/4669/htm



最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐