Dresinate X_nineroadpizzeria

Dresinate X_nineroadpizzeria论文:https://arxiv.org/abs/1709.05424代码:https://github.com/idealo/image-quality-assessment摘要由于图像质量评估在各种应用中的有用性,例如评估图像捕获管道、存储技术和共享媒体,因此最近自动学习的图像质量评估已成为热门话题。尽管这个问题存在主观性质,但大多数现有方法仅预测由AVA[1]和TID2013[2]...

论文:https://arxiv.org/abs/1709.05424
代码:https://github.com/idealo/image-quality-assessment

摘要

由于图像质量评估在各种应用中的有用性,例如评估图像捕获管道、存储技术和共享媒体,因此最近自动学习的图像质量评估已成为热门话题。尽管这个问题存在主观性质,但大多数现有方法仅预测由AVA [1]和TID2013 [2]等数据集提供的平均得分。我们的方法与其他方法的区别在于我们使用卷积神经网络预测人类意见得分的分布。我们的架构还具有比具有可比性能的其他方法简单得多的优点。我们提出的方法依赖于经过验证的、最先进的深层物体识别网络的成功(进行了重新训练)。我们生成的网络不仅可以用于可靠地对图像进行评分,并且与人类感知具有高度相关性,还可以用于协助在摄影管道中对照片编辑/增强算法进行调整和优化。所有这些都是在不需要“黄金”参考图像的情况下完成的,因此允许单图像、语义和感知、无参考质量评估。

1 简介

图像质量和美学的量化一直是图像处理和计算机视觉中的长期问题。虽然技术质量评估涉及测量噪声、模糊、压缩伪像等低级退化,但美学评估量化了与图像中的情感和美感相关的语义级别特征。通常,图像质量评估可以分为全参考和无参考方法。虽然在前者中假设参考图像的可用性(诸如PSNR,SSIM [3]等的度量),但是通常盲(无参考)方法依赖于失真的统计模型来预测图像质量。这两个类别的主要目标是预测与人类感知相关的质量得分。然而,图像质量的主观性仍然是根本问题。最近,更复杂的模型,如深度卷积神经网络(CNN)已被用于解决这个问题[4] - [11]。来自人类评级的标记数据的出现鼓励了这些努力[1],[2],[12] - [14]。在典型的深度CNN方法中,通过对分类相关数据集(例如ImageNet [15])进行训练来初始化权重,然后使用用于感知质量评估任务的标注数据进行微调以完成图像质量评价任务。

1.1 相关工作

机器学习在预测图像技术质量方面取得了巨大成功[4] - [7]。康等人[5]表明,使用CNN提取高级特征可以产生最先进的盲质量评估性能。用端到端特征学习系统取代手工制作的特征是使用CNN进行像素级质量评估任务的主要优势[5],[6]。[5]中提出的方法是一个浅网络,有一个卷积层和两个全连接层,输入大小为32×32。Bosse等[6]使用12层的深CNN来改善[5]的结果。鉴于输入尺寸较小(32×32补丁),两种方法都需要在整个图像上进行分数汇总。Bianco等人在[7]中提出了一个基于AlexNet的深度质量预测器[15]。从尺寸为227×227的图像crop中提取多个CNN特征,然后回归到人类得分。

CNN在物体识别任务上的成功显著有利于美学评估的研究。这似乎很自然,因为语义级别质量与图像内容直接相关。最近的基于CNN的方法[8] - [11],[16]与基于手工制作的特征的早期作品相比显示出显著的性能提升[1]。Murray等人[1]提出了审美评估的基准。他们介绍了AVA数据集并提出了一种使用手动设计的特征进行样式分类的技术。后来,Lu等人[8],[17]表明深度CNN非常适合审美评估任务。他们的双列CNN [17]由四个卷积层和两个全连接层组成,其输入是缩放后的图像和大小为224×224的裁剪窗口。来自这些全局和局部图像的预测由全连接层聚合为总分。与Murray等人[1]类似。在[17]中,图像也根据平均人类评级分为低和高。在[9]中使用回归损失和AlexNet启发的架构来预测平均分数。与[9]类似,Bin等人[11]微调VGG网络[18]以学习AVA数据集的人类评级。他们使用回归框架来预测评级的直方图。Zheng等人最近的一种方法[19]重新训练AlexNet和ResNet CNN来预测照片的质量。最近,[10]使用自适应空间池化,以允许将具有固定宽高比的多个尺度的输入图像输入到CNN。这项工作提出了一种多网络(每个网络是一个预先训练的VGG)方法,该方法提取多个尺度的特征,并使用场景感知聚合层来组合子网络的预测。同样,Ma等人[20]提出了一种布局感知框架,其中使用显著性检测来选择对预测美学评分具有最大影响的图像块。总的来说,这些方法都没有报告其预测结果与真实评级的相关性。最近,Kong等人在[14]中提出了一种通过基于等级的损失函数对AVA进行训练来对照片进行美学排序的方法。他们训练了一个基于AlexNet的CNN,以了解两个输入图像的美学分数的差异,并因此间接优化等级相关性。据我们所知,[14]是唯一的进行了针对AVA评级的相关性评估的工作。

1.2 本文贡献

在本文中,我们介绍了一种新颖的方法来预测图像的技术和美学质量。我们展示了具有相同CNN架构的模型,在不同的数据集上进行了训练,为这两项任务带来了最先进的性能。由于我们的目标是与人类评级具有更高相关性的预测,而不是将图像分类为低/高分或回归到平均分,因此评级的分布被预测为直方图。为此,我们使用[21]中提出的平方EMD(earth mover’s distance)损失,其显示了有序类别的分类中的性能提升。我们的实验表明,这种方法也可以更准确地预测平均得分。此外,如美学评估案例[1]所示,图像的非常规性与得分标准偏差直接相关。我们提出的范例也允许预测该度量。

最近已经表明,感知质量预测器可以用作训练图像增强模型的学习损失[22],[23]。同样,图像质量预测器可用于调整增强技术的参数[24]。在这项工作中,我们使用我们的质量评估技术来有效地调整图像去噪和色调增强操作的参数,以产生感知上优异的结果。

本文首先回顾了三个广泛使用的质量评估数据集。然后,更详细地解释我们提出的方法。最后,量化了这项工作的表现并与现有方法进行了比较。

1.3 一个大型审美视觉分析数据库(AVA)

AVA数据集包含大约255,000张图像,根据业余摄影师的审美品质进行评级。每张照片由200人的评分进行平均,以进行摄影比赛。每个图像都与单个挑战主题相关联,AVA中有近900个不同的竞赛。图像评级范围从1到10,其中10是与图像相关的最高美学评分。AVA等级的直方图如图1所示。可以看出,平均评分集中在整体平均评分(≈5.5)附近。此外,AVA数据集中大约一半照片的评级具有大于1.4的标准偏差。正如[1]中所指出的,可能具有高分方差的图像倾向于进行解释,而具有低分方差的图像似乎代表传统风格或主题。图2显示了几个与不同审美质量水平和非常规性相关的评级示例。似乎照片的美学质量可以用平均分来表示,并且它的非常规性与分数方差密切相关。考虑到AVA分数的分布,通常,在AVA数据上训练模型会导致预测结果在总体均值(5.5)周围的很小偏差范围内波动。
在这里插入图片描述在这里插入图片描述值得一提的是,图1中的联合直方图显示了非常低/高等级具有较高的偏差(与总体平均值5.5和平均标准偏差1.43相比)。换句话说,在具有极端美学品质的AVA图像中,意见分歧更加一致。如[1]中所讨论的,平均值在2和8之间的评级的分布可以通过高斯函数近似,并且高度偏斜的评级可以通过Gamma分布来建模。

1.4 Tampere图像集2013(TID2013)

TID2013旨在评估全参考感知图像质量。它包含来自25个参考(干净)图像(柯达图像[25])的3000个图像,24种类型的失真,每个失真有5个级别。这导致每个参考图像对应120个失真图像, 包括不同类型的失真,例如压缩伪像、噪声、模糊和颜色伪影。

通过强制选择实验收集TID2013图像的人类评分,其中观察者在两个失真图像之间选择更好的图像。设置实验允许评估者在做出决定时查看参考图像。在每个实验中,每个失真图像用于9个随机成对比较。所选图像获得一分,而其他图像获得零分。在实验结束时,将分的总和用作与图像相关联的质量得分(这导致得分范围从0到9)。为了获得总体平均分,总共进行了985次实验。

TID2013数据集的平均值和标准偏差如图3所示。从图3(c)中可以看出,平均值和得分偏差值是微弱相关的。来自TID2013的一些图像在图4和图5中示出。所有五个级别的JPEG压缩伪像和各自的等级如图4所示。明显较高的失真水平导致较低的平均得分。对比度压缩/拉伸变形对人类评级的影响如图5所示。有趣的是,对比度的延伸(图5(c)和图5(e))导致相对较高的感知质量。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

1.5 LIVE In the Wild Image Quality Challenge Database

LIVE数据集包含1162张由移动设备捕获的照片。每张图片的评分为175个单独评分平均而得。LIVE数据集评分的平均值和标准偏差如图6所示。从联合直方图中可以看出,评定接近总体平均得分的图像显示出更高的标准偏差。来自LIVE数据集的一些图像如图7所示。值得注意的是,在本文中,LIVE分数被缩放为[1,10]。
在这里插入图片描述在这里插入图片描述与AVA(包括每张图像的评级分布)不同,TID2013和LIVE仅提供意见分数的均值和标准差。由于我们提出的方法需要对得分概率进行训练,因此通过最大熵优化来近似得分分布[27]。

本文的其余部分安排如下。在第II节中,描述了所提出方法的详细说明。接下来,在第III节中,举例说明了我们的算法在对照片和图像增强进行排名中的应用。我们还提供了实施细节。最后,本文在第IV节中得出结论。

2 本文方法

我们提出的质量和美学预测器基于图像分类器架构实现。更明确地,我们探索了一些不同的分类器体系结构,如VGG16 [18],Inception-v2 [28]和MobileNet [29],用于图像质量评估任务。VGG16由13个卷积层和3个全连接层组成。尺寸为3×3的小卷积滤波器用于深度VGG16架构[18]。Inceptionv2 [28]基于Inception模块[30]允许并行的使用卷积和池化操作。此外,在Inception体系结构中,传统的全连接层被平均池替换,显著减少了模型的参数数量。MobileNet [29]是一种高效的深度CNN,主要用于移动视觉应用。在这种架构中,密集卷积滤波器被可分离滤波器取代。这种简化导致CNN模型更小更快。

我们将基准CNN的最后一层替换为具有10个神经元的全连接层,然后进行softmax激活(如图8所示)。通过ImageNet数据集[15]的训练初始化基准CNN权重,然后进行质量评估的端到端训练。
在本文中,我们讨论了所提出的模型与各种基准CNN的性能。

在这里插入图片描述在训练中,输入图像被重新缩放为256×256,然后随机提取大小为224×224的裁剪块。这减少了潜在的过拟合问题,特别是在对相对较小的数据集(例如TID2013)进行训练时。值得注意的是,我们还试图在没有重新缩放的情况下使用随机crop进行训练。但是,结果并不令人信服。这是由于图像缩放中不可避免的变化。我们训练过程中的另一个数据增加手段是图像crop的水平翻转。

我们的目标是预测给定图像的评级分布。给定图像的人类评级的真实分布可以表示为经验概率质量函数 p = [ p s 1 , ⋯   , p s N ] p = [p_{s1},\cdots,p_{s_N}] p=[ps1,,psN],其中 s 1 ≤ s i ≤ s N s_1≤s_i≤s_N s1sisN,其中 s i s_i si表示第 i 个得分区间,N表示得分区间的总数。在AVA和TID2013数据集中,N = 10,在AVA中,s1 = 1且sN = 10,并且在TID中s1 = 0且sN = 9。由于 ∑ i N p s i = 1 \sum_i^N p_{si} = 1 iNpsi=1 p s i p_{si} psi表示质量得分落入第 i 个区间的概率。给定评级的分布为p,质量得分的均值定义为 μ = ∑ i = 1 N s i × p s i μ= \sum_{i=1}^N s_i×p_{si} μ=i=1Nsi×psi,得分的标准差计算为 σ = ( ∑ i = 1 N ( s i − μ ) 2 × p s i ) 1 2 σ=(\sum_{i = 1}^N(si-μ)^2×p_{si})^{\frac{1}{2}} σ=i=1N(siμ)2×psi)21。如前一节所述,人们可以通过平均分数和标准差来定性比较图像。

数据集中的每个示例都包含一个图像及其基本事实(用户)评级p。我们的目标是找到概率质量函数 p ^ \hat p p^,它是p的精确估计。接下来,讨论我们的训练损失函数。

2.1 损失函数

softmax 交叉熵被广泛用作分类任务中的训练损失。该损失可以表示为 ∑ i = 1 N − p s i log ⁡ ( p ^ s i ) \sum_{i = 1}^N -p_{si} \log(\hat p_{si}) i=1Npsilog(p^si)(其中 p s i p_{si} psi表示第i个分数区间的估计概率)以最大化正确标签的预测概率。但是,在有序类的情况下(例如 美学和质量评估),交叉熵损失缺乏得分区间之间的内部关系。有人可能会争辩说,有序类可以用实数表示,因此可以通过回归框架来学习。然而,已经证明,对于有序类,分类框架可以胜过回归模型[21],[31]。侯等人[21]表明,对类之间具有内在排序的数据集进行训练可以从基于EMD损失中受益,这些损失函数根据类别距离惩罚错误类

对于图像质量等级,类本身按 s 1 &lt; ⋯ &lt; s N s_1 &lt;\cdots&lt;s_N s1<<sN排序,类之间的r-norm距离定义为 ∣ ∣ s i − s j ∣ ∣ r ||s_i-s_j||_r sisjr,其中 1 ≤ i , j ≤ N 1≤i,j≤N 1i,jNEMD定义为将一个分布的质量移动到另一个分布的最小成本。给定真实和估计的概率质量函数 p p p p ^ \hat p p^,具有N个有序类别的距离 ∣ ∣ s i − s j ∣ ∣ r ||s_i-s_j||_r sisjr,归一化的EMD距离可以表示为[32]:
E M D ( p , p ^ ) = ( 1 N ∑ k = 1 N ∣ C D F p ( k ) − C D F p ^ ( k ) ∣ r ) 1 r EMD(p,\hat p) = (\frac{1}{N}\sum _{k=1}^{N}|CDF_p(k) - CDF_{\hat p}(k)|^r)^{\frac{1}{r}} EMD(p,p^)=(N1k=1NCDFp(k)CDFp^(k)r)r1

其中 C D F p ( k ) CDF_p(k) CDFp(k)是累积分布函数,即 ∑ i = 1 k p s i \sum_{i=1}^{k}p_{s_i} i=1kpsi。值得注意的是,这种封闭形式的解要求两个分布具有相等的质量,因为 ∑ i = 1 N p s i = ∑ i = 1 N p ^ s i \sum_{i=1}^{N}p_{s_i} = \sum_{i=1}^{N}\hat p_{s_i} i=1Npsi=i=1Np^si。如图8所示,我们预测的质量概率被馈送到soft-max函数以保证 ∑ i = 1 N p ^ s i = 1 \sum_{i = 1}^N\hat p_{s_i} = 1 i=1Np^si=1。类似于[21],在我们的训练框架中,r 被设置为2以惩罚 CDF之间的欧几里德距离。当使用梯度下降时,r = 2允许更容易的优化。

3 实验结果

我们为AVA,TID2013和LIVE训练了两个独立的美学和技术质量评估模型。对于每种情况,我们将每个数据集拆分为训练集和测试集,使用20%的数据用于测试。在本节中,讨论了所提出的模型在测试集上的性能,并与现有方法进行了比较。然后,探讨了所提出的技术在照片排名和图像增强中的应用。在继续之前,我们将详细介绍我们的实施细节。

本文介绍的CNN使用TensorFlow [33],[34]实现。通过ImageNet [15]上的训练初始化基准CNN权重,并随机初始化最后一个全连接层。权重和偏差动量设置为0.9,并且在基准网络的最后一层上应用比例为0.75的dropout。基线CNN层和最后全连接层的学习率分别设置为 3 × 1 0 − 7 3×10^{-7} 3×107 3 × 1 0 − 6 3×10^{-6} 3×106。我们观察到,当使用随机梯度下降时,在基准CNN层上设置低学习率导致更容易和更快的优化。此外,在每10个训练周期之后,对所有学习率应用具有衰减因子0.95的指数衰减。

3.1 性能比较

我们对AVA美学评估模型的准确性、相关性和EMD值列于表I。表I中的大多数方法被设计为对美学分数执行二元分类,因此,仅报告了对两类质量分类的准确性评估。在该二元分类中,将预测的平均分数与5作为截止分数进行比较。具有高于截止分数的预测分数的图像被归类为高质量。在两级审美分类任务中,[20]和NIMA(Inception-v2)的结果显示出最高的准确性。此外,在排序相关方面,NIMA(VGG16)和NIMA(Inception-v2)表现优于[14]。NIMA计算量要小很多:[20]在图像块上应用多个VGG16网络以生成单个质量得分,而NIMA(Inceptionv2)的计算复杂度大约是Inception-v2的一次通过(参见表V)。

在这里插入图片描述在这里插入图片描述我们将TID2013的技术质量评估模型与表II中的其他现有方法进行了比较。虽然大多数这些方法回归到平均得分,但我们提出的技术预测了评级的分布以及平均得分。NIMA(VGG16)的结果与真实值之间的相关性接近[35]和[7]中的最新结果。值得强调的是Bianco等人[7]将多个图像块馈送到深CNN,而我们的方法仅采用重新缩放的图像。

在这里插入图片描述AVA得分的预测分布如图9所示。我们使用NIMA(Inception-v2)模型来预测AVA测试集的得分。可以看出,NIMA接近真实的预测了真实平均分数的分布。然而,预测真实分数的偏差的分布是一项更具挑战性的任务。正如我们之前所讨论的,主题或风格的非常规性对得分标准偏差有直接影响。

在这里插入图片描述

3.2 跨数据集评估

作为交叉验证测试,我们训练的模型的性能在其他数据集上测量。这些结果列于表III和表IV中。
我们在所有三个测试集中测试了在AVA,TID2013 [2]和LIVE [26]上训练的NIMA(Inception-v2)模型。可以看出,平均而言,AVA数据集的训练显示了最佳性能。例如,AVA训练和LIVE测试分别导致0.552和0.543线性和序相关。然而,对LIVE的训练和对AVA的测试导致0.238和0.2线性和序相关系数。我们相信这一观察结果表明,在AVA上训练的NIMA模型可以更有效地推广到其他测试示例,而对TID2013的训练导致LIVE和AVA测试集的性能较差。值得一提的是,AVA数据集包含大约250倍的示例(与LIVE数据集相比),这允许训练NIMA模型而没有任何明显的过度拟合。

在这里插入图片描述

3.3 Photo Ranking

可以使用预测的平均分数可以实现对照片进行排名。来自AVA数据集的一些测试照片在图10和图11中排名。预测的NIMA分数和真实的AVA分数显示在每个图像下方。图10中的结果表明,除了图像内容之外,诸如色调,对比度和照片构图之类的其他因素是重要的美学品质。而且,如图11所示,除了图像语义之外,框架和调色板是这些照片中的关键品质。我们训练好的AVA模型可以很好地预测这些美学属性。

在这里插入图片描述在这里插入图片描述预测的平均分数用于定性地对图12中的照片进行排名。这些图像是我们TID2013测试集的一部分,它包含各种类型和级别的失真。比较真实分数和预测分数表明我们在TID2013上训练的模型准确地对测试图像进​​行了排序。

在这里插入图片描述

3.4 图像增强

质量和美学分数可用于感知调整图像增强操作。换句话说,将NIMA得分最大化作为先验可以增加增强图像的感知质量的可能性。通常,通过在各种摄影条件下的大量实验来选择增强算子的参数,例如图像去噪和对比度增强。感知调整可能非常昂贵且耗时,尤其是在需要人类意见时。在本节中,我们提出的模型用于调整色调增强方法[43]和图像降噪器[44]。更详细的处理方法见[23]。

多层拉普拉斯算法[43]增强了图像的局部和全局对比度。此方法的参数控制图像的细节,阴影和亮度。图13示出了具有不同参数集的多层拉普拉斯算子的一​​些示例。我们观察到,通过对比度调整可以改善基于AVA数据集训练的模型预测的美学评级。我们的能够指导多层拉普拉斯滤波器,以找到其参数的美学上接近最佳的设置。这种类型的图像编辑的示例在图14中表示,其中在每个图像上应用细节,阴影和亮度变化的组合。在每个示例中,6个级别的细节增强,11个级别的阴影变化和11个级别的亮度变化占总共726个变化。美学评估模型倾向于偏好具有增强细节的高对比度图像。这与图10中所示的AVA的基本事实结果一致。

在这里插入图片描述在这里插入图片描述Turbo去噪[44]是一种使用域变换[45]作为其核心滤波器的技术。Turbo去噪的性能取决于空间和范围平滑参数,因此,适当调整这些参数可以有效地提高降噪器的性能。我们观察到,改变空间平滑参数会产生最显著的感知差异,因此,我们使用在TID2013数据集上训练的质量评估模型来调整此降噪器。我们的无参考质量度量作为图像去噪中的先验应用与Zhu等人的工作类似[46],[47]。我们的结果如图15所示。将具有标准偏差为30的加性高斯白噪声添加到清晰图像中,并且使用具有各种空间参数的Turbo去噪来对噪声图像进行去噪。为了减少分数偏差,从去噪图像中提取50个随机块。将这些分数平均以获得图15中所示的图。可以看出,尽管向每个图像添加了相同量的噪声,但是最大质量分数对应于每个示例中的不同去噪参数。对于相对平滑的图像,例如(a)和(g),Turbo去噪的最佳空间参数比(j)中的纹理图像更高(这意味着更强的平滑)。这可能是由于(j)的相对高的信噪比。换句话说,质量评估模型倾向于尊重纹理并避免细节过度平滑。可以在图16中检查去噪参数的影响。虽然图16(a)中的去噪结果是不平滑的,但(c),(e)和(f)显示出不希望的过平滑效应。预测的质量分数验证了这种感知观察。

在这里插入图片描述在这里插入图片描述

3.5 计算代价

表V中比较了NIMA模型的计算复杂性。我们的推理TensorFlow实现在具有32 GB内存和12个内核的Intel Xeon CPU @ 3.5 GHz和NVIDIA Quadro K620 GPU上进行了测试。在表V中报告了NIMA模型的一次通过的尺寸为224×224×3的图像。显然,NIMA(MobileNet)比其他模型明显更轻和更快。这是以略微降低性能为代价的(见表I和表II)。

4 结论

在本文中,我们介绍了一种基于CNN的图像评估方法,该方法可以在美学和像素级质量数据集上进行训练。我们的模型有效地预测了质量评级的分布,而不仅仅是平均分数。这导致了更准确的质量预测,与真实等级具有更高的相关性。我们训练了两种模型,用于高水平的美学和低水平的技术质量评估,并利用它们来控制一些图像增强操作的参数。我们的实验表明,这些模型能够指导去噪和色调增强,以产生感知上优异的结果。

作为我们未来工作的一部分,我们将在其他图像增强应用程序中利用经过训练的模型。我们当前的实验设置要求对增强算子进行多次评估。这限制了所提出方法的实时处理可能。有人可能会争辩说,如果增强算子具有明确定义的导数,使用NIMA作为损失函数是一种更有效的方法。

架构君码字不易,如需转载,请注明出处:https://javajgs.com/archives/212177
0
   

发表评论