【人脸检测】——Sample and Computation Redistribution for Efficient Face Detection论文简读网站首页 技术交流

【人脸检测】——Sample and Computation Redistribution for Efficient Face Detection论文简读

农夫山泉2号 2023-06-21 12:00:03

简介【人脸检测】——Sample and Computation Redistribution for Efficient Face Detection论文简读

人脸检测

摘要

在非受控人脸检测方面已经取得了巨大的进步，但低计算成本和高精度的高效人脸检测仍然是一个开放的挑战。作者提出了两种简单而有效的方法：样本再分配（SR）和计算再分配（CR）。在WIDER FACE上进行的大量实验表明，所提出的SCRFD家族具有SOTA的效率和精度权衡。特别是，SCRFD-34GF的性能比最好的竞争对手TinaFace高出3.86%，同时在VGA分辨率图像的gpu上比TinaFace快3倍以上。

1. 简介

图像分辨率的影响
直接将分类网络的主干用于目标检测是次优的。最近的CR-NAS重新分配了不同分辨率之间的计算。这基于观察到计算在不同分辨率之间的分配对有效感受野（ERF）有很大影响，并影响检测性能。在BFbox中，由于COCO和WIDER FACE之间存在巨大的尺度分布差距，因此观察到相同的主干在COCO上的一般目标检测任务和WIDER FACE上的人脸检测任务之间表现不一致。基于这一观察，BFbox设计了一个面向人脸的搜索空间，包括主干和颈部。ASFD发现在目标检测中常用的特征增强模块，在人脸上并不一定有效。

本文中探索了在固定的VGA分辨率（即640×480）下进行高效的人脸检测，而不是使用大尺度进行测试，以降低计算成本。在这种尺度设置下，WIDER FACE中的大多数人脸（78.93％）小于32×32像素，因此它们由浅层阶段预测。为了在这些浅层阶段获得更多的训练样本，作者首先提出了一种通过**大型裁剪策略进行样本再分配（SR）**的方法。

2. TinaFace 回顾

a. 不同尺度精度图
b. 不同stage的计算量
在这里插入图片描述
68%计算量主要来自于1/4 scale的head部分，head部分占了整个网络的79%

3. 方法

基于对TinaFace的上述分析和以下精心的实验，作者在人脸检测设计上提出了以下效率改进，条件是（1）测试尺度限制在VGA分辨率（640）内，（2）步幅为4的特征图上没有锚点。具体而言，作者在步幅为8的特征图上铺设{16,32}的锚点，在步幅为16的特征图上铺设{64,128}的锚点，在步幅为32的特征图上铺设{256,512}的锚点。由于测试尺度较小，大多数人脸将在步幅为8的位置预测。因此，作者首先调查了不同尺度特征图之间正训练样本的再分配（第4.1节）。然后，作者探索了不同尺度特征图之间以及不同组件（即主干、颈部和头部）之间的计算再分配，给定预定义的计算预算。

3.1 样本采样

在这里插入图片描述
在训练数据增强期间，从原始图像中裁剪出正方形块，其随机大小来自原始图像短边的[0.3,1.0]集合。为了为步幅8生成更多的正样本，作者将随机大小范围从[0.3,1.0]扩大到[0.3,2.0]。当裁剪框超出原始图像时，平均RGB值填充缺失的像素。如图4（a）所示，在使用所提出的大型裁剪策略后，32以下的人脸更多。此外，尽管在大型裁剪策略下会有更多极小的人脸（例如<4×4），但由于锚匹配不成功，这些地面真实人脸将在训练期间被忽略。如图4（b）所示，在一个时期内，尺度为16的正锚点从72.3K增加到118.3K，尺度为32的正锚点从95.9K增加到115.1K。通过将更多训练样本重新分配到小尺度，检测微小人脸的分支可以得到更充分的训练。