【图像增强】UWGAN论文理解

it2023-01-05  68

摘要

  水下图像增强技术在水下视觉研究中受到了广泛的关注。但是,原始水下图像容易遭受由水下场景引起的色彩失真、曝光不足和模糊。   本文:提出了一种新的用于增强水下图像的多尺度密集生成式对抗网络(GAN)。   ①生成器:使用残差的多尺度密集块,其中多尺度、密集连接和残差学习可以提高性能、渲染更多细节并利用之前的特征图。   ②判别器:采用计算量小的光谱归一化来稳定判别器的训练。   ③损失函数:结合L1损失、梯度损失、非饱和GAN损失函数。   实验:   ①在合成、真实水下图像上的最终增强结果证明了该方法的优越性。在定性和定量评估方面均优于非深度学习方法和深度学习方法。   ②消融实验:以显示每个组件的贡献,并进行了应用测试,以进一步证明所提出方法的有效性。

一、介绍

  水下图像退化原因:   水下成像在深海探索、水下机器人技术和海洋生态监测中发挥了重要作用。 但原始水下图像很难满足相关图像处理的要求。 由于水中光线的衰减和散射,色彩失真、曝光不足和模糊是图像退化的三个主要问题:    第一,考虑到深度、光线条件、水的类型和不同的光波长,水下图像的颜色通常会失真。    第二,光能的吸收导致曝光不足。 与相机镜头相距10 m以上的物体几乎无法区分。    第三,水下图像的模糊可以归因于以下两个因素。,大量的悬浮颗粒引起光散射和传播方向的偏移; 悬浮颗粒和水都会通过将光反射到相机镜头而影响场景对比度。   改善水下图像质量:增强方法和恢复方法   传统方法包括增强方法和恢复方法:   ①增强方法:没有水下物理参数,专注于调整图像像素值以产生吸引人的结果。   ②图像恢复:考虑了退化模型以增强水下图像。   需要各种复杂的水下物理和光学因素,使得这些传统方法变得难以实现。由于缺少大量训练数据,这些方法在不同的水下图像中泛化性能差,并且某些场景下图像往往会被过度增强或增强不充分。   深度卷积神经网络方法   强大的监督学习模型,在一些低层次的视觉任务上取得令人信服的成功,例如图像超分辨率、图像去雨和图像降噪,一些研究人员将深度学习应用于水下图像处理。   本文:   开发了一种可训练的多尺度密集生成式对抗网络(GAN),其主要贡献概述如下。   ①提出了新的多尺度密集块(MSDB),不需要构建水下退化模型和图像先验;高效组合残差学习、密集连接和多尺度,纠正偏色并恢复图像细节,从而改善主观和客观评估; 消融研究,以证明本文提出的多尺度密集块中每个组件的作用。   ②采用包含包括L1损失和梯度损失的更有意义的对抗损失,保留地面真实情况的图像特征;使用频谱归一化稳定判别器的训练,频谱归一化在计算量小、快速且易于并入GAN训练中。   ③大量实验以证明该方法在合成和真实水下图像上的优越性; 最后进行应用测试,进一步证明了该方法的有效性。

二、相关工作

   考虑到水下视觉的重要性,近年来已经提出了许多用于水下图像增强的方法。 现有的改善水下图像质量的方法可以归纳为以下几类。

2.1 基于增强的方法

  基于图像增强的方法着重于调整图像像素值以产生主观和视觉上吸引人的图像。   例①Enhancing underwater images and videos by fusion文献:从原始水下图像得到输入和权重。两个输入:一个是白平衡版本,它会去除海底图像的不必要的色偏;另一个是过滤版本,用于显示细节。四个权重图:旨在确定哪个像素更有利于出现在恢复的输出中。但增强后的图像容易变得过度增强或增强不足。   例②Underwater image quality enhancement through integrated color model with Rayleigh distribution文献:具有瑞利分布的集成色彩模型可以最大程度地减少过度增强和增强不足的区域,但会在输出结果中引入噪声。   例③A retinex- based enhancing approach for single underwater image文献:提出了一种基于retinex的(RB)方法,以增强水下图像的质量。该过程包括三个主要步骤:简单有效的色彩校正策略、可变RB框架、对模糊和曝光不足的后处理。这种方法有效地降低了水下蓝绿色效果,并消除了放大的噪声。   总结: 这些基于增强的方法在一定程度上改善了水下场景的对比度和图像质量,且无需复杂的水下物理参数。但是某些场景中的输出图像变得过度增强或增强不足。

2.2 基于恢复的方法

  图像恢复技术的目标是通过构建退化模型然后估计模型参数来恢复水下图像。   例①暗通道先验方法(DCP):假设在大多数无雾室外图像的局部区域中,至少一个颜色通道中会存在一些强度非常低的像素。然后使用此假设来估计传输并恢复图像。复杂的水下图像在某种程度上类似于朦胧的图像(例如反向散射)。因此一些研究人员将这种方法用于处理水下图像。   例②水下暗通道先验(UDCP):基于观测大量水下图像中红色通道的吸收率提出了一种新颖的先验,以恢复高质量图像。但UDCP对水下场景中的变化非常敏感。   例③红色通道方法:通过恢复与短波长相关的颜色来恢复退化的图像。   总结: 基于恢复的方法需要许多物理参数和水下光学性质,使得这些方法难以实施。由于缺乏丰富的训练数据,这些基于暗通道先验的方法在海洋场景中表现较差。

2.3 基于深度学习的方法

  基于深度学习的方法,依靠丰富的训练数据,能够改善不同水下场景中的图像质量。   例①WaterGAN:WaterGAN 结合物理模型使用空中图像和相应的深度信息生成特定水下场景的合成图像。   例②Emerging from water: Underwater image color correction based on weakly supervised color transfer:基于 CycleGAN 和多项损失函数开发了一种弱的水下图像色彩校正模型。   例③UGAN:考虑到CycleGAN可以将图像从一个域转换到另一个域而无需成对的训练数据或深度配对,UGAN采用CycleGAN来作为降质处理生成成对的训练数据,然后使用基于pix2pix的模型来改善水下画面质量,UGAN所采用的梯度惩罚比频谱归一化耗时。   本文提出了一种用于水下图像增强的有效块,该块具有残差学习、密集连接和多尺度操作的能力,在消融研究中将被证明是有效的。 利用频谱归一化来稳定判别器的训练,频谱归一化已经被证明在计算上轻巧、快速,并且易于并入GAN训练。 此外本文提出的网络在多达215个真实的水下图像上表现出主观和客观评估的良好效果。

三、方法论

  GAN 在机器学习研究领域获得了广泛的关注,不仅因为它能学习目标的概率分布 ,还因为其在理论上具有吸引力。受GAN启发,本文提出UWGAN    UWGAN:   学习非失真图像和失真图像之间的非线性映射, 网络通过利用端到端和数据驱动的训练机制来产生增强的结果。   网络模型包含两个组件:生成器网络G、判别器网络D。生成器的全卷积网络中采用了残差MSDB(RMSDB),生成器用于合成水下图像;判别器用于将生成器生成的合成图像与相应的真实水下图像区分开;使用非饱和损失、L1损失和梯度损失。

3.1 生成器网络

  近年来已经设计了许多特征提取模块:   (1)GoogLeNet:广泛使用的inception架构,旨在找出网络结构中的最佳局部稀疏结构。 然而这些不同尺度的特征以简单的方式在块的结尾处串联在一起,导致部分特征图的未充分利用。   (2)ResNet:深度剩余学习框架,简化网络的优化过程, 同时可以获得竞争性结果。   (3)DenseNet:设计了dense块来加强特征传播、鼓励特征重用。   MSDB模块:   受上述特征提取模块的启发,本文提出了一种新颖的MSDB(上图MSDB详细结构) : 每个串联操作都具有三个或四个特征图,以充分利用图像的局部特征,其中一个特征直接来自上一层的输出;两条中间路径的内核大小不同,可以以不同的比例检测特征图;引入最后的1×1卷积作为瓶颈层,从而促进特征融合并提高计算效率。 该操作可以表示如下:   其中ω代表权重,为简化符号省略了偏置,上标表示卷积层的位置,下标表示相应的卷积核的大小;“ *” 代表卷积; L(x)表示Leaky ReLU(LReLU)激活函数,[T1,F1,Xn-1],[T1,F1,Xn-1],[T2,F2,O1,Xn-1]指代特征图的串联(拼接)。   细节:   ①为了便于串联:MSDB中的每一层都使用步长为1的卷积内核。   ②块末尾的1×1卷积层:将特征图减少为MSDB的输入通道数——MSDB块的输入和输出具有相同数量的特征图。这种独特的操作允许将多个MSDB连接在一起。   RMSDB模块:    MSDB加入跳跃连接,跳跃连接作为一个块,进一步鼓励信息流和梯度。RMSDB结合了两个模块来获得可比的性能。

  上图表明超过两个块可以提高性能,但引入了许多参数并增加了训练时间。 因此建议网络使用两个块。

  UWGAN生成器网络:   RMSDB代表残差MSDB和BN代表批量归一化。[filter_h,filter_w,stride]是卷积核大小,h×w×chennel是输出形状。 所有LReLU激活函数的斜率均设置为0.2。   前两层(卷积层): ①第一层:64个7×7大小的卷积核;②第二层:128个3×3大小的卷积核。每个卷积层后跟BN和LReLU激活。 卷积的前两层可以减少特征图的大小并提取初步特征。   RMSDB: 可以连接到前两层的输出并提取更多特征。   后两层(反卷积层):用于重建图像。 最后一个反卷积层映射到输入通道数,该通道使用Tanh函数来匹配[-1,1]的输入分布。

3.2 判别器

  判别器网络包含5层(使用频谱归一化),类似于70×70 PatchGAN。   第一层和最后一层不使用BN,其余所有卷积层都遵循相同的基本设计,即卷积BN–LReLU层。    PatchGAN:首先在pix2pix 中使用,然后扩展到以后的CycleGAN中应用。   PatchGAN优点:参数比全图像判别器少,可以以全卷积的方式处理任意大小的图像。    频谱归一化:限制判别器器的Lipschitz常数,以稳定判别器的训练。 该过程在计算上是轻便的并且易于实现。 如下图与没有频谱归一化的判别器相比,具有频谱归一化的判别器具有稳定且下降的曲线。

3.3 GAN目标函数

  生成器生成一个图像来欺骗判别器,判别器旨在区分合成的和真实的水下图像。   将x设为空中图像,y设为退化的同一图像。 UWGAN损失包括非饱和GAN损耗、L1损失、梯度损失:    (1)非饱和GAN损失:   其中D(x)表示x来自真实水下图像而不是发生器G(y)的输出的概率。 众所周知非饱和损失的性能优于minimax损失(原始GAN的损失)。λ1和λg分别为L1距离和梯度损失的权重。   (2)L1距离和梯度损失:   给结果一些地面真实感并稳定训练过程

四、实验

  在本节中,首先讨论UWGAN网络的详细设置;然后通过在合成和真实水下图像上将其与其他非深度学习和深度学习方法进行比较,来展示该方法的性能; 最后消融研究和应用测试进一步证明了该方法的优越性。

4.1 设置

  (1)数据设置   使用 UGAN的训练数据: UGAN根据主观视觉将包含水下图像的Imagenet 子集分为两类:x未失真的水下图像集,y失真的水下图像集。 CycleGAN可以学习映射函数f:x→y以及g:y→x:通过f:x→y退化x中的图像,生成用于训练数据的6128个图像对。 同时CycleGAN学会了一个映射g:y→x,它类似于图像增强,并用作比较方法。   从中国獐子岛的相关论文和海产养殖基地中选择了119个真实的水下图像,并从Imagenet和SUN中选择了96个图像。 测试集总共包含215张真实的水下图像。   (2)训练细节   训练过程中,训练和测试图像的尺寸为256×256×3,并在[-1,1]之间进行归一化。 我们使用λ1= 60,λg= 10和LReLU(斜率为0.2)和Adam算法,学习率为0.0001, 批处理大小设置为32;每次生成器更新时,鉴别器将更新五次。;使用TensorFlow框架在GTX 1070 Ti上训练了整个网络60个epoch。   (3)对比方法   在合成的和真实的水下图像上将提出的模型与其他增强方法进行了比较,方法包括FusionEnhance(FE)、RB、UDCP、CycleGAN、弱监督颜色转移(WSCT)和UGAN。

4.2 真实水下图像增强

  使用非深度学习和深度学习方法在测试集上评估。   主观评价:   FE: 由于不正确的色彩校正算法,具有明显的红色偏色。   RB: 可以增强水下图像质量,同时生成一些暗淡的图像。   UDCP: 加剧了蓝绿色效果。   CycleGAN: 对图像的积极作用有限,因为图像到图像的转换不适用于水下图像增强。    WSCT: 在某些水下图像中引入了绿色调,部分原因是缺乏稳定GAN训练的技术。 如WSCT的第一个图像中,背景引入了绿色偏差。    本文方法: 与其他方法相比,该方法不仅可以在水下场景中恢复视觉吸引力,而且即使在其他方法失败的情况下,也可以增强水下图像。   客观评价:   为了使我们的结果更具说服力,采用两个非参考指标来评估水下图像:   ①水下彩色图像质量评估(UCIQE): 利用色度、饱和度和对比度的线性组合进行定量评估,分别量化不均匀的偏色、模糊和低对比度。   ②水下图像质量度量(UIQM): 包含水下图像的三个属性,如水下图像色彩度测量(UICM)水下图像清晰度度量(UISM)和水下图像对比度度量(UIConM)。   UCIQE和UIQM的值越高,表示图像质量越好。   评估测试中,使用UCIQE和UIQM评估测试集:   FE: 由于不正确的色彩校正算法,具有明显的红色偏色,从而导致UICM值降低。   CycleGAN:进行50000次迭代和100000次迭代的训练,没有任何额外的好处,因为具有循环一致性损失的图像到图像转换不适用于水下场景。   UGAN: 利用多达512个卷积核的许多卷积层来增强水下图像,从而导致过多的网络参数。   本文: 与UGAN相比本文提出的方法与有效块相结合可实现更高的指标,同时使用更少的参数。该方法的UIQM大于其他方法,UCIQE也大于大多数方法,方差小于大多数方法。

4.3 合成水下图像增强

  在60个合成图像上评估本文提出的方法,这些图像来自使用MHL数据集获得的WaterGAN 。   主观评价:   **FE和RB:**引入了偏红色   **UDCP:**无法校正水下颜色。   CycleGAN和WSCT: 在一些水下图像中,CycleGAN和WSCT呈绿色调。  本文: 与UGAN相比,该方法可以呈现更多细节并减少颜色偏移。   客观评价:

  采用UCIQE和UIQM指标来评估合成的水下图像。 本文方法的UCIQE得分高于其他方法,UIQM得分相对较高,方差小于其他方法。

4.4 消融研究和应用测试

  (1)消融研究   消融研究旨在揭示每种组件的作用:   1.UWGAN去除残余学习操作 (−RL)   2.UWGAN删除密集的连接操作 (−DC)   3.UWGAN删除多尺度操作(−MS)   表中可以观察到残差学习和多尺度操作都可以改善水下图像的UCIQE和UIQM。 与没有密集连接的网络相比,我们在指定的卷积层中进行了几次密集连接操作以改进UICM和UIConM。   (2)应用测试   一些与特征相关的算法,包括SIFT 和Canny,被用来进一步证明所提出方法的有效性。与原始水下图像相比,增强型图像呈现更多的关键匹配点和更多的边缘检测功能。

五、结论

  在本文中,我们提出了一种通过GAN进行水下图像增强的方法。 同时提出的MSDB与残差学习相结合可以提高网络性能,多项损失函数可以产生视觉上令人愉悦的增强效果。   大量实验证明了该方法在合成和真实水下图像上的优越性。 此外进行消融研究以显示每个组件的贡献,并且应用测试进一步证明了该方法的有效性。

最新回复(0)