NIMA: Neural Image Assessment网站首页 技术交流

NIMA: Neural Image Assessment

Adagrad 2024-08-24 00:01:03

简介NIMA: Neural Image Assessment

摘要:基于自动学习的图像质量评估技术在评价图像采集管道、存储技术和共享媒体等方面具有广泛的应用价值，近年来已成为图像质量评估研究的热点。尽管这一问题具有主观性，但现有的大多数方法仅对AVA[1]和TID2013[2]等数据集提供的平均意见得分进行预测。我们的方法与其他方法的不同之处在于，我们使用卷积神经网络预测人类意见得分的分布。我们的体系结构还具有比其他方法简单得多的优势，具有相当的性能。我们提出的方法依赖于经过验证的、最先进的深度目标识别网络的成功(和再训练)。我们得到的网络不仅可以用于可靠地为图像评分，并与人类感知高度相关，而且还可以在摄影流水线中协助适应和优化照片编辑/增强算法。所有这些都不需要“黄金”参考图像，因此允许单图像、语义感知和无参考质量评估。

I. INTRODUCTION

图像质量和美学的量化一直是图像处理和计算机视觉中一个长期存在的问题。技术质量评估处理的是低层次的退化，如噪音、模糊、压缩伪影等，而美学评估则量化图像中与情感和美感相关的语义层次特征。一般来说，图像质量评估可以分为全参考和无参考两种方法。虽然在前一种方法中假设参考图像的可用性(如PSNR、SSIM[3]等度量)，但通常的盲(无参考)方法依赖于畸变的统计模型来预测图像质量。这两种分类的主要目标是预测与人类感知良好相关的质量分数。然而，图像质量的主观性仍然是一个根本性的问题。最近，更复杂的模型，如深度卷积神经网络(cnn)已经被用于解决这个问题[4]-[11]。来自人类评级的标签数据的出现鼓励了这些努力[1]，[2]，[12]-[14]。在一种典型的深度CNN方法中，通过对分类相关数据集(如ImageNet[15])进行训练初始化权值，然后对标注数据进行微调，用于感知质量评估任务。

A. Related Work

机器学习在预测图像[4]-[7]的技术质量方面已显示出良好的前景。Kang等人[5]表明，使用cnn提取高级特征可以获得最先进的盲质量评估性能。看来，用端到端特征学习系统取代手工制作的特征是将cnn用于像素级质量评估任务[5]，[6]的主要优势。我们在[5]中提出的方法是一个浅层网络，一个卷积层和两个全连通层，输入块大小为32 × 32。Bosse et al.[6]使用12层的深度CNN来改进[5]的图像质量预测。由于输入尺寸较小(32 × 32 patch)，两种方法都需要对整个图像进行积分聚合。Bianco等人在[7]中提出了一种基于AlexNet[15]的深度质量预测器。从大小为227 × 227的图像作物中提取多个CNN特征，然后回归到人类得分。

cnn在物体识别任务中的成功应用为审美评价的研究提供了重要的借鉴。这看起来很自然，因为语义级别的质量与图像内容直接相关。最近基于cnn的方法[8]-[11]，[16]与早期基于手工特性[1]的作品相比，性能有了显著的改进。[1]是审美评价的基准。他们引入了AVA数据集，并提出了一种使用手工设计的特征进行样式分类的技术。后来Lu等人[8]，[17]表明深层cnn非常适合审美评估任务。他们的双列CNN[17]由四个卷积层和两个完全连接的层组成，其输入是调整大小的图像和裁剪后的大小为224×224的窗口。来自这些全局和局部图像视图的预测将由一个完全连接的层聚合为一个总体分数。与Murray et al.[1]相似，在[17]中，图像也根据人类的平均评分分为低美学和高美学。在[9]中使用了回归损失和受AlexNet启发的架构来预测平均分数。Bin等人采用与[9]类似的方法，对VGG网络[18]进行微调，以了解人类对AVA数据集的评级。他们使用回归框架来预测评级的直方图。郑等人最近使用的一种方法是[19]，对AlexNet和ResNet cnn进行重新训练，以预测照片的质量。最近，[10]使用了一种自适应空间池，允许将具有固定大小宽高比的输入图像的多个尺度输入CNN。本研究提出了一种多网络(每个网络都是经过预先训练的VGG)方法，该方法在多个尺度上提取特征，并使用场景感知聚合层来组合子网络的预测。类似地，Ma et al.[20]提出了一个布局感知框架，其中使用显著性地图来选择对预测美学评分影响最大的补丁。总的来说，这些方法都没有报告他们的预测与地面真相评级的相关性。最近，Kong等人在[14]中提出了一种方法，利用基于等级的损失函数在AVA上进行训练，对照片进行美学排序。他们训练了一个基于alexnet的CNN来学习从两个输入图像中审美得分的差异，结果是间接优化了排名相关性。据我们所知，[14]是唯一对AVA评级进行相关性评估的工作。

B. Our Contributions

在这项工作中，我们介绍了一种新的方法来预测图像的技术和审美品质。我们展示了具有相同CNN架构的模型，在不同的数据集上训练，可以为这两个任务带来最先进的性能。由于我们的目标是预测与人类评级的相关性更高，而不是将图像分类为低/高分数或回归到平均分数，评级的分布被预测为一个直方图。为此，我们使用了[21]中提出的平方EMD(土动者距离)损失，它显示了在有序分类时性能的提高。我们的实验表明，这种方法也导致了更准确的预测平均分数。此外，从美学评估案例[1]中可以看出，图像的非常规性与评分标准差直接相关。我们提出的范例也可以预测这个度量标准。

最近的研究表明，知觉质量预测器可以作为学习损失来训练图像增强模型[22]，[23]。同样，可以使用图像质量预测器来调整增强技术[24]的参数。在这项工作中，我们使用我们的质量评估技术，以有效调整参数的图像去噪和音调增强算子产生知觉优越的结果。

本文首先回顾了三种广泛使用的质量评估数据集。然后，对所提出的方法进行了详细的说明。最后，对该方法的性能进行了量化，并与现有方法进行了比较。

C. A Large-Scale Database for Aesthetic Visual Analysis (AVA) [1]

AVA数据集包含大约25.5万张图像，这些图像是由业余摄影师根据审美质量进行评级的1。每张照片平均由200人对摄影比赛进行评分。每一张图片都与一个挑战主题相关联，在AVA中有近900个不同的比赛。图像评分范围从1到10,10是与图像相关的最高美学评分。AVA评级直方图如图1所示。可以看出，平均评分集中在总体平均分数(≈5.5)附近。此外，AVA数据集中大约一半的照片评分的标准差大于1.4。正如[1]中所指出的，假设得分方差高的图像更容易被解释，而得分方差低的图像似乎代表了传统的风格或主题。图2中展示了几个与不同审美质量和非常规程度相关的评分例子。一幅照片的美感似乎可以用平均分来表征，而照片的反常规性则与得分偏差密切相关。考虑到AVA分数的分布，通常，在AVA数据上训练模型会产生与总体平均值(5.5)有微小偏差的预测。

值得注意的是，在图1中的联合直方图中，对于非常低/非常高的评级，其偏差较大(相对于总体均值5.5，平均标准差1.43)。换句话说，在审美品质极端的AVA图像中，意见分歧更加一致。如[1]中所讨论的，均值在2到8之间的评级分布可以用高斯函数近似表示，高度偏态的评级可以用伽马分布建模。

D. Tampere Image Database 2013 (TID2013) [2]

TID2013是为评估全参考感知图像质量而策划的。它包含3000张图像，从25个参考(干净)图像(柯达图像[25])，24种类型的失真，每5个级别的失真。这导致每幅参考图像有120幅失真图像;包括不同类型的失真，如压缩失真、噪声失真、模糊失真和彩色失真。

通过一个强制选择实验，观察者在两个扭曲的选择中选择一个更好的图像，来收集TID2013图像的人类评分。实验的设置允许评分者在做决定时查看参考图像。在每一个实验中，每一个扭曲的图像都被用于9个随机的两两比较。选中的图像得到1点，其他图像得到0点。在实验结束时，将这些分数的总和作为与图像相关的质量分数(分数范围为0 - 9)，共进行985次实验，得到总体的平均分数。

TID2013评级的均值和标准差如图3所示。从图3(c)中可以看出，均值和得分偏差值是弱相关的。Fig. 4和Fig. 5展示了TID2013的一些图片。图4显示了所有5个等级的JPEG压缩构件和相应的评分。明显地，失真程度越高，平均得分越低。对比压缩/拉伸变形对人体评分的影响如图5所示。有趣的是，对比的延伸(图5(c)和图5(e))会导致相对较高的感知质量。

E. LIVE In the Wild Image Quality Challenge Database [26]

LIVE数据集包含1162张由移动设备捕获的照片。每张图片平均由175个不同的对象进行评分。LIVE额定值的均值和标准差如图6所示。从联合直方图中可以看出，在总体平均分数附近评分的图像标准差更高。来自LIVE数据集的少量图像如图7所示。值得注意的是，在本文中，LIVE分数被标为[1,10]。

不同于AVA，它包括对每个图像的评级分配，TID2013和LIVE只提供意见得分的平均值和标准差。由于我们提出的方法需要对分数概率进行训练，所以通过最大熵优化[27]来逼近分数分布。

本文的其余部分组织如下。在第二节中，详细解释了所提出的方法。接下来，在第三节中，我们将举例说明算法在照片排序和图像增强中的应用。我们还提供了实现的细节。最后，本文在第四部分进行总结。

II. PROPOSED METHOD

我们提出的质量和美学预测站在图像分类器架构。更明确的是，我们探索了几种不同的分类器架构，如用于图像质量评估任务的VGG16[18]、Inception-v2[28]和MobileNet[29]。VGG16由13个卷积层和3个全连接层组成。在深度VGG16架构[18]中使用了大小为3 × 3的小型卷积滤波器。Inceptionv2[28]基于Inception模块[30]，它允许并行使用卷积和池操作。同样，在Inception体系结构中，传统的全连接层被平均池取代，这导致了参数数量的显著减少。MobileNet[29]是一个高效的深度CNN，主要设计用于移动视觉应用。在这种结构中，密集卷积滤波器被可分离滤波器所取代。这种简化导致CNN模型更小、更快。

我们将基线CNN的最后一层替换为全连接层，该层包含10个神经元，然后进行soft-max激活(如图8所示)。基线CNN的权值通过在ImageNet数据集[15]上进行训练初始化，然后对质量评估进行端到端训练。在本文中，我们讨论了所提出的模型与各种基线cnn的性能。

在训练中，将输入的图像缩放到256 × 256，然后随机提取尺寸为224 × 224的crop。这减少了潜在的过度拟合问题，特别是在相对较小的数据集(如TID2013)上进行训练时。值得注意的是，我们还尝试了不按比例种植随机作物的训练。然而，结果并不令人信服。这是由于图像组成不可避免的变化。在我们的训练过程中，另一个随机数据增强是图像裁剪的水平翻转。

我们的目标是预测给定图像的评级分布。给定图像的人类评级的地面真实分布可以表示为经验概率质量函数

A. Loss Function

III. EXPERIMENTAL RESULTS

我们在AVA、TID2013和LIVE上训练了两个独立的美学和技术质量评估模型。对于每种情况，我们将每个数据集拆分为训练集和测试集，这样就有20%的数据用于测试。在本节中，我们将讨论所提出的模型在测试集上的性能，并与现有的方法进行比较。然后，探讨了该技术在照片排序和图像增强中的应用。在继续之前，我们将解释实现的细节。

本文提出的cnn是使用TensorFlow[33]，[34]实现的。通过ImageNet[15]训练初始化基线CNN权值，随机初始化最后一个全连接层。权重和偏差动量设置为0.9，基线网络的最后一层采用0.75的dropout率。基线CNN层和最后全连通层的学习速率分别设为3 × 10−7和3 × 10−6。我们观察到，当使用随机梯度下降时，在基线CNN层上设置较低的学习率会导致更容易和更快的优化。同样，在每10个训练阶段之后，对所有的学习速率应用衰减因子为0.95的指数衰减。

A. Performance Comparisons

我们对AVA审美评价模型的评价的准确性、相关性和EMD值如表1所示。表1中的大多数方法都是对审美评分进行二分类，因此只报道了两类质量分类的准确性评价。在这种二元分类中，预测的平均分数与5作为截止分数进行比较。预测分数高于分界点的图像被归类为高质量图像。在两类审美分类任务中，[20]和NIMA(Inception-v2)的结果准确率最高。在等级相关性方面，NIMA(VGG16)和NIMA(Inception-v2)表现优于[14]。NIMA要便宜得多:[20]在图像补丁上应用多个VGG16网络来生成单一的质量分数，而NIMA(Inceptionv2)的计算复杂度大约是Inception-v2的一次传递(见表V)。

表二将我们在TID2013上的技术质量评估模型与现有的其他方法进行了比较。虽然大多数这些方法回归到平均意见得分，我们提出的技术预测评级的分布，以及平均意见得分。ground truth和NIMA(VGG16)结果之间的相关性与[35]和[7]的最先进结果接近。值得强调的是，Bianco等人的[7]为深度CNN提供了多个图像裁剪，而我们的方法只需要缩放后的图像。

AVA得分的预测分布如图9所示。我们使用NIMA(Inception-v2)模型来预测我们的AVA测试集的地面真实分数。可以看出，地面真实平均分数的分布是由NIMA预测的。然而，预测地面真实标准差的分布是一个更具挑战性的任务。正如我们之前所讨论的，主题或风格的非常规性对分数标准差有直接影响。

B. Cross Dataset Evaluation

作为交叉验证测试，我们训练的模型的性能是在其他数据集上测量的。这些结果见表III和表IV。我们在所有三个测试集上测试了在AVA、TID2013[2]和LIVE[26]上训练的NIMA(Inception-v2)模型。可以看出，平均来说，AVA数据集上的训练效果最好。例如，AVA培训和LIVE测试的结果分别为0.552和0.543的线性和秩相关。而LIVE训练和AVA测试的线性相关系数和秩相关系数分别为0.238和0.2。我们认为，这一观察结果表明，在AVA上训练的NIMA模型可以更有效地推广到其他测试示例，而在TID2013上训练会导致在LIVE和AVA测试集上的性能较差。值得一提的是，AVA数据集包含了大约250倍多的例子(与LIVE数据集相比)，这允许训练NIMA模型而不存在任何明显的过拟合。

C. Photo Ranking

预测的平均分数可以用来对照片进行美学排序。AVA数据集的部分测试照片排序如图10和图11所示。预测的NIMA分数和地面真实的AVA分数显示在每张图片下面。从图10的结果可以看出，除了图像内容外，照片的色调、对比度、构图等因素也是重要的审美品质。此外，如图11所示，除了图像语义之外，帧和调色板是这些照片的关键品质。这些审美属性是由我们在AVA上训练过的模型密切预测的。

用预测的平均分数对图12中的照片进行定性排序。这些图像是我们的TID2013测试集的一部分，其中包含各种类型和级别的失真。对比地面真实值和预测值，表明我们在TID2013上训练的模型能够准确地对测试图像进行排序。

D. Image Enhancement

质量和美学评分可以用来感知调优图像增强算子。换句话说，将NIMA分数最大化作为先验可以增加增强图像感知质量的可能性。通常，图像去噪和对比度增强等增强算子的参数是在各种摄影条件下通过大量实验来选择的。感知调优可能相当昂贵和耗时，尤其是在需要人类意见的时候。在本节中，我们提出的模型被用于调优音调增强方法[43]和图像去噪器[44]。[23]给出了更详细的处理。

多层拉普拉斯算法[43]增强了图像的局部和全局对比度。该方法的参数控制图像的细节量、阴影和亮度。图13给出了具有不同参数集的多层拉普拉斯算子的几个例子。我们观察到，通过对比调整，从AVA数据集上训练得到的预测美学评分可以得到改善。因此，我们的模型能够指导多层拉普拉斯滤波器找到其参数的美学上接近最优的设置。这种类型的图像编辑的例子在图14中表示，其中的细节，阴影和亮度变化的组合应用在每个图像上。在每个例子中，6个级别的细节提升，11个级别的阴影变化，以及11个级别的亮度变化总共产生了726种变化。美学评估模型倾向于偏好细节增强的高对比度图像。这与图10所示的AVA地面真实结果相一致。

Turbo去噪[44]是一种利用域变换[45]作为核心滤波器的技术。Turbo去噪的性能取决于空间平滑参数和范围平滑参数，适当调整这些参数可以有效提高去噪性能。我们观察到，改变空间平滑参数会造成最显著的感知差异，因此，我们使用我们在TID2013数据集上训练的质量评估模型来调整该去噪器。将我们的无参考质量度量作为先验在图像去噪中的应用与Zhu等人[46]，[47]的工作类似。我们的结果如图15所示。在干净的图像上加入标准差为30的加性高斯白噪声，利用不同空间参数的Turbo去噪对噪声图像进行去噪。为了减少评分偏差，从去噪后的图像中提取50个随机作物。取这些分数的平均值，得到图15所示的情节。从图中可以看出，虽然每幅图像都加入了相同数量的噪声，但是在每个例子中，最大质量分数对应不同的去噪参数。对于(a)、(g)等较为平滑的图像，Turbo去噪的最佳空间参数比(j)中的纹理图像更高(平滑性更强)，这可能是由于(j)的信噪比较高，也就是说，质量评估模型倾向于尊重纹理，避免细节的过度平滑。去噪参数的效果可以在图16中直观地看到。图16 (a)的去噪结果为欠平滑，(c)、(e)、(f)为不良的过平滑效果。预测的质量分数证实了这种感知观察。

E. Computational Costs

表五比较了NIMA模型的计算复杂度。我们的推理TensorFlow实现是在Intel Xeon 3.5 GHz、32 GB内存、12核CPU和NVIDIA Quadro K620 GPU上进行测试的。表五报道了NIMA模型在尺寸为224 × 224 × 3的图像上一次通过的时间。显然，NIMA(MobileNet)比其他模型明显更轻、更快。这是以轻微的性能下降为代价的(如表1和表2所示)。

IV. CONCLUSION

在本工作中，我们引入了一种基于cnn的图像评估方法，它可以在美学和像素级质量数据集上进行训练。我们的模型有效地预测了质量评分的分布，而不仅仅是平均分数。这导致了更准确的质量预测，与地面真相评级的相关性更高。我们训练了高水平美学和低水平技术素质两种模型，并利用它们来引导少数图像增强算子的参数。我们的实验表明，这些模型能够指导去噪和音调增强，从而产生更好的感知结果。

作为我们未来工作的一部分，我们将利用训练有素的模型在其他图像增强应用。我们目前的实验设置需要对增强算子进行多次评估。这限制了所提方法的实时应用。有人可能会说，对于具有定义良好的导数的增强算子，使用NIMA作为损失函数是一种更有效的方法。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。