图像融合方向：《GP-GAN: Towards realistic high-resolution image blending》论文理解网站首页 技术交流

图像融合方向：《GP-GAN: Towards realistic high-resolution image blending》论文理解

wyypersist 2023-06-12 12:00:03

简介图像融合方向：《GP-GAN: Towards realistic high-resolution image blending》论文理解

《GP-GAN: Towards realistic high-resolution image blending》论文理解

论文：《GP-GAN: Towards realistic high-resolution image blending》ACM MM 2019
链接：GP-GAN: Towards realistic high-resolution image blending

本文目录

《GP-GAN: Towards realistic high-resolution image blending》论文理解
论文创新点
具体实现思路
文章内容解析

论文创新点

首次将GAN应用在图像融合（ImageBlending）的领域的文章；
提出了一个高斯-泊松生成对抗网络框架（GP-GAN），目的是为了利用经典的梯度方法和生成对抗网络的优势；
提出了Blending GAN生成对抗网络来学习合成图像和良好混合图像之间的映射（使用改进的对抗性损失和鉴别器来训练Blending GAN）；
提出了一个高斯-泊松方程来描述高分辨率图像混合问题，该方程受到梯度和图像颜色信息联合的约束优化；
只需要粗略的mask掩膜，文中提出的方法同样可以很好地处理源图像和目标图像的拼接边缘，从而生成良好的融合图像；

具体实现思路

第1阶段中，使用提出的Blending GAN在输入图像的基础上生成低分辨率的图像；
第2阶段中，使用原图的梯度向量场和由第一阶段生成的低分辨率图像（由拉普拉斯金字塔形成的）来求解所提出的高斯泊松方程（即：在方程中添加了图像的梯度信息和颜色信息的共同约束）；

文章内容解析

使用模型整体架构

GP-GAN整体架构
整体概述

给定合成图像 $x$ ，首先通过将 $x^1$ 馈送到G(x)来获得 $widetilde{x}_l$ ，其中 $x^1$ 是输入图像 $x$ 的拉普拉斯金字塔中的最粗尺度；
然后，通过使用闭式解优化高斯泊松方程来更新 $widetilde{x}_h^1$ 。在输入图像𝑥的拉普拉斯金字塔中， $widetilde{x}_h^1$ 被上采样之后在更精细的尺度上用作 $widetilde{x}_l$ ；
重复上述步骤2直到在输入图像 $x$ 的金字塔的最精细尺度上获得与输入的合成图像 $x$ 分辨率相同的最终真实图像 $widetilde{x}_h$ ；

Blending GAN的实现细节

整体框架结构

Blending GAN整体架构
其中， $H(x_h)$ 表示为：
在这里插入图片描述
公式（9）中相关符号的说明在下面有说明。

Blending GAN(x)通过学习混合复制和粘贴图像，并生成语义上与输入相似的真实图像。
由于同时具有输入图像和ground-truth标签图像 $x_g$ ，所以文中选择了有监督的方式对Blending GAN进行训练；

上述任务中使用了无监督的Wasserstein GAN[1]进行监督学习；
文中提出的Blending GAN与Wasserstein GAN的不同之处在于Blending GAN具有适合任务而构造的辅助loss和专门设计的架构；

上述提出的GAN架构参考了文献[2]中的架构，但不同的是，上文中的架构将原始架构中的channel-wise全连接层变换为标准卷积层，这样使得上述的GAN对整个图像的全局信息利用更加的充分；

使用的损失函数

文中提出了组合损失（其中添加了L2损失）作为Blending GAN训练loss函数。
在这里插入图片描述
（2）式中的 $L_{l_2}$ 定义如下：

（2）式中定义的 $L_{adv}$ 如下：

（3）式中， $G (x)$ 表示图像x经过GAN编解码之后的输出， $x_g$ 表示数据集中对应的ground-truth图像。（4）式中，表示使用Blending GAN的Decoder模块处理 $x_g$ 和 $G (x)$ ，然后最大化Decoder对真实数据的判别能力 $D(x_g)$ ，最小化Decoder对生成数据的判别能力 $D (G (x))$ 。

实验数据中 $x_g$ 的来源

文中特别提到了在Blending GAN计算loss时使用的 $x_g$ 的采集办法： $x_g$ 来自于同一个相机同一个视角下不同时间段的拍摄图像。而本文章的目的就是，将来两个不同时间段的前景和背景图进行融合，来得到背景图像所对应的时间段下的完整融合图像。

高斯泊松方程的实现

文中指出，使用通过Blending GAN(x)方程得到的低分辨率图像的低频信号作为原始的组合图像的颜色约束且使用原始组合图像的梯度场信息来恢复重建图像的高分辨率细节和边缘信息。

将上述语言转换为最小化如下目标函数：
在这里插入图片描述

算法实现细节

在这里插入图片描述

算法评价方法

定量方法

使用由Realism CNN[3]获得的真实感评分进行判别；
使用用户调研的方法，每次向受试者展示合成图像 $x$ ，然后由三种不同算法生成的三幅blending结果。受试者需要在这三幅图像中选择最真实的图像；

定性方法

在这里插入图片描述

在这里插入图片描述
通过观察上述两幅图可以看到：前景图像和背景图像都可以做到很好的融合，显得非常真实。

参考文献

[1] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN[J]. 2017.
[2] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. 2016. Context encoders: Feature learning by inpainting. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2536–2544.
[3] Zhu J Y, Krahenbuhl P, Shechtman E, et al. Learning a discriminative model for the perception of realism in composite images[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3943-3951.

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。