高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置

   自动化那些事        

眼瞳定位是虚拟现实、增强现实等各种计算机视觉应用中不可缺少的技术之一。一般来说,该算法包括寻找近似的眼区域,并通过提取各眼区域的语义特征来寻找瞳孔位置。然而,眼睛瞳孔位置的性能不仅受照明和图像分辨率的影响,也受到眼镜佩戴的影响。因此,该研究提出了一种对上述干扰条件具有鲁棒性且精度高的眼瞳定位算法。该研究以“Eye pupil localization algorithm using convolutional neural networks”为题于2020年8月28日发布于《Multimedia Tools and Applications》杂志上。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


研究背景与实验


眼瞳定位是一种定位图像中人的瞳孔的计算机视觉技术。近来,眼瞳定位已被广泛应用于3D显示、智能机器人、心理学、脑科学等各个领域。这是因为人眼信息在人机交互(HCI)中起着非常重要的作用。眼瞳定位的环境可以分为两种。一种是通过嵌入在头部安装设备或用户佩戴的眼镜中的摄像头,检测近距离拍摄的眼睛区域的瞳孔。


高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置

图为眼瞳孔定位2例


该研究提出了一种基于异质CNN模型的瞳孔定位方法。首先,研究者提出了一个基于cnn分类器的联合模型,以确定是否佩戴眼镜,并建立一个生成网络从检测到的面部移除眼镜。这使得能够有效地找到那些没有被现有技术覆盖的佩戴者的眼睛区域。


该方法由两个步骤组成:眼睛区域提取和瞳孔中心定位(见图)。在眼睛区域提取步骤中,从输入图像中检测人脸,并从检测到的人脸中提取面部标志。基于所提取的地标提取眼睛区域。另一方面,为了提取正确的标志,即使是戴眼镜的人,基于cnn的二进制分类器也会检查脸上是否有眼镜,如果有眼镜,则通过CycleGAN将其移除。在瞳孔中心定位步骤中,利用FCN对瞳孔区域进行分割。在分割区域中,以最大光强的像素作为瞳孔中心。图中总结了整个算法。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为建议的眼睛瞳孔定位的框图

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为该方法的流程图


在将GaN应用于面部BB之前,二进制分类器确定是否戴上该眼镜。设计了一种基于CNN的浅层二元分类器,用于识别戴眼镜.由于眼镜有时具有微特征,所以研究者不把它们集中在卷积层的中间以保持微观特征。


如果面膜上有玻璃,则用GaN除去眼镜。最近,几种GaN算法被报道使用发电机和鉴别器之间的对抗性训练结构来显示高的图像生成性能。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为通过循环GAN去除玻璃的例子


为了训练眼镜探测器和CycleGAN,研究者通过网络抓取采集了2000张戴眼镜者和非戴眼镜者的图像。用SSD从图像中裁剪出人脸BBS,然后将人脸BBS调整为128×128。所得到的图像用于训练CycleGAN。


在提取的眼睛区域,瞳孔中心通过两个步骤被找到。首先,利用FCN对瞳孔区域进行分割。注意,图像分割是一种典型的像素级分类任务,是在语义层次上同时获得目标类的置信度和定位信息的最佳方法。其次,确定在分割后的瞳孔区域中具有最大强度的像素位置作为瞳孔中心。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为瞳孔区域分割的FCN结构


为了提高基站网络的性能,研究者提出了以下三种技术。首先,在真正的瞳孔位置周围创建半正像素,并将其包含在标签中.如果真正的瞳孔位置仅为一个像素,则由于课程之间的不平衡,训练过程可能会变得不稳定。因此,研究者在真实瞳孔位置周围创建高斯分布的半正像素,如图所示。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为目标图像中半正像素的生成过程


为了评估所提出的算法,研究者使用了两个著名的数据库:BioID和GI4E。BioID数据库由1521张供23人使用的灰度图像组成。图像大小为384×288。这是一个非常具有挑战性的数据集,因为它的分辨率相对较低,不仅包括大量的戴眼镜者,还包括一只完全闭上眼睛的人。GI4E数据库由103个人(12张/人)的800×600张彩色图像组成。研究者使用BioID和GI4E数据集一起进行训练。为此,将GI4E的彩色图像转换为灰度图像。算法中使用的所有网络都是在PyTorch框架下实现的。


研究者证明了所提出的算法对BioID和GI4E数据库的准确性。为了进行公正的评价,基准方法是按原样引用的,或者是从论文中的图表中估计出来的。由于一些算法由于人脸对齐不准确而无法获得眼睛区域,相应的图像被排除在测试过程中。


在误差≤0.05范围内,该方法对BioID的准确率为93.3%,对GI4E的准确率为99.6%。这些数字比最先进的方法(SOTA)要高得多.即使在误差≤0.025的情况下,该方法仍能提供比传统方法更高的精度。结果表明,该方法具有较好的精度。


根据玻璃去除的应用情况,给出了该方法的性能。研究者可以发现,所提出的眼镜检测器和眼镜去除过程对整个算法的精度有着积极的影响。另一方面,需要注意的是,玻璃去除网络对生物ID的影响大于GI4E。这是因为BioID包含了比GI4E更多的眼镜佩戴者图像。


当每一种技术被添加时,显示估计的瞳孔位置与GT之间的平均距离。研究者可以通过数值验证,每种技术对提高精度都有积极的作用。


结果表明,高斯滤波提高了约2%的性能。同时,研究者可以发现,当标准差为0.8时,性能最好。因此,半正像素生成技术不仅提供了稳定的学习,而且帮助该方法达到最优点。


另外,在Intel I7-7700K CPU和GeForce GTX 1070 GPU的硬件环境下,研究者来看看所提出的方法的复杂性。纯瞳孔中心检测的处理时间只有17毫秒。由于人脸检测网络提取一张人脸BB的时间约为11 ms,人眼瞳孔定位的处理总时间约为28 ms,即36 Hz,是实时操作。


高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置

图为提出的眼睛瞳孔定位结果的可视化


在e≤0.025的情况下,研究者可以观察到大约24%的性能差距。这在一定程度上证明了人脸地标的准确估计对瞳孔检测的准确性有很大的影响。因此,该研究提出的眼镜去除技术是提高瞳孔检测性能的有效方法。

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


图为在摘下眼镜之前后检测到眼角

高度有效的瞳孔定位方法!可以更精准的定位瞳孔位置


瞳孔中心检测结果与不摘除眼镜技术。红点表示两眼的地标。亮绿点表示瞳孔中心的位置。顶部显示没有摘除眼镜的瞳孔中心,底部显示摘除眼镜后检测到的瞳孔中心。


研究结论


提出了一种基于全卷积网络的瞳孔定位算法。研究者提出通过眼镜探测器和GAN网络去除可能存在于人脸图像上的眼镜,以获得更准确的眼睛区域。


研究者还提出并证明了利用FCN分割瞳孔区域的FCN优化方法用于瞳孔中心定位。该方法在归一化误差小于0.05的情况下,对BioID和GI4E数据库实现了93.3%和99.6%的最高精度。


此外,该系统具有实时操作的可能性,预计在工业上具有较高的应用价值。未来,研究者将在现有研究的基础上,对近场环境下瞳孔的精确检测进行研究。


参考文献:Jun Ho Choi, Kang Il Lee & Byung Cheol Song Eye pupil localization algorithm using convolutional neural networks  Multimedia Tools and Applications 32563–32574(2020)


最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐