《Contrastive Learning for Unpaired Image-to-Image Translation》网站首页 技术杂谈

NorthSmile 2024-09-18 12:01:06

简介《Contrastive Learning for Unpaired Image-to-Image Translation》

1. 摘要

图像转换任务本质工作是，在源域与目标域的映射过程中，将源域图像的结构、内容部分与外观部分分离，在转换过程中，内容不变，而外观则使用目标域图像的外观替换；
CycleGAN中使用对抗损失保持外观部分，使用循环一致损失保持内容部分，但是循环一致损失对源域与目标域的限制较大，要求两域之间的映射关系必须为双射，也就是要求G(x)只会存在一个y与之对应，反之亦然；
本文方法通过最大化对应的输入和输出patch之间的互信息仅保持内容部分对应；
本文通过对比损失InfoNCE Loss实现对比学习，该函数目的是学习一个嵌入或一个编码器，它将相应的补丁相互关联，同时将它们与其他补丁分离；
编码器会关注两个域之间的共性，例如物体的部分和形状，同时对不同之处如动物纹理保持不变：网络目标：输入域图像内容+目标域图像风格；
使用多层、基于patch的对比学习方法更有效，此过程中从输入的其他部分提取负样本可以强迫patch更好的保存输入的内容；
因为对比学习是在图像内部进行，所以该网络可以在单个图像上进行训练；

成对图像转换任务中，常使用对抗损失或结合重构损失学习源域到目标域之间的映射关系；
不成对图像转换任务中，多使用循环一致损失强制要求源域和目标域之间内容尽可能一致，但是该损失有一个很大的限制：两域之间映射关系为双射。实际情况中类似CycleGAN的实现有一个缺点：如果两域之间图像内容上信息不对应则会很难实现重构；

此方法促使输入图像中的关系在输出中有类似反映；
可使用关系保持的方法替换循环一致性，但此种方法存在两大缺点：1）依赖整幅图像之间的关系：输入图像中相似patch中存在的关系在输出中依然保持；2）依赖预先定义的距离函数：用于计算patch之间的相似度；
本文方法不依赖预定义距离，通过最大化输入-输出对应patch之间的互信息（公共信息）学习一个跨域相似性函数，以此替换循环一致性；

图像转换任务中，大多工作使用每像素重构度量定义感知距离函数，比如使用l1损失定义，此种方法并不能很好地反映视觉效果，可能会得到模糊结果；
成对数据图像转换任务中，近期有一些工作通过在ImageNet数据集上预训练的VGG分类网络定义感知损失，这种方式存在一定缺点：1）预训练网络权重固定，可能并不适合当前提供的数据集；2）可能不适用于不成对数据训练中；
本文通过图像之间的互信息提出约束，通过利用数据中的负样本，允许跨域相似函数适应特定的输入和输出域；

最大化互信息：利用噪声对比估计学习一种嵌入关系，将相关信号聚集在一起；
优点：不用预先定义损失函数度量预测性能；
使用InfoNCE loss进行对比学习；
InfoNCE loss 用于计算图像之间的相似度，是一种基于互信息和噪声对比估计的无监督学习方法，可用于自监督学习和基于对比的学习。通过对比图像之间的特征信息来计算相似度，从而使得学习到的特征更加具有判别性和鲁棒性；