JustSong Archive Link About
Projects
Categories
Others

Self-Attention Generative Adversarial Networks

Tag: OneNote 论文阅读笔记 Posted on 2020-10-07 16:58:05 Edited on 2020-10-07 16:58:05 Views: 102

https://arxiv.org/pdf/1805.08318.pdf

 

Abstract

提出了 SAGAN,其允许在图像生成任务上进行 attention-driven, long-range dependency modeling

 

SAGAN 中可以结合特征图的所有部分来生成细节,并通过应用谱归一化(spectral normalization)来 improve training dynamics.

 

SAGAN IS 52.52FID 18.65达到了新的 SOTA

 

Introduction

现有的基于卷积神经网络的 GAN 没有办法学习到在某些类别中经常出现的 geometric or structural patterns一种可能的解释是这些模型严重依赖卷积去对跨越多个图片区域的依赖进行建模,然而卷积算子只有一个局部的感受野,长距离的依赖只能在其被传入多个卷积层后才能被处理,一种可能解决此问题的方法是增大卷积核的尺寸,以此来提升网络的表现能力。但是这将增大计算量并损失统计上的效率(loses the computational andstatistical efficiency obtained by using local convolutional structure)。

 

针对此问题,作者引入了 self-attention 机制,其与卷积互补,帮助建模 long range, multi-level dependencies across image regions

 

同时,基于前人的研究结论:well-conditioned generators tend to perform better作者建议通过在生成器上应用光谱归一化来强制 good conditioning of GAN generators

 

 

Methodology

self-attention mechanism

其中 C 表示通道数,N 表示特征位置的数目。

exp(Sij ) 
where Sij 
exp(Sij)

 

其表示模型在生成第 j 个区域时对第 i 个位置的关注程度。

attention layer 的输出:

 

γ 首先被初始化为 0使模型首先探索局部空间信息,之后再利用自注意力机制来做进一步的提升。

 

transpose 
convolution 
feature maps (x) 
attention 
map 
softmax 
g(x) 
self-attention 
feature maps (o) 
v(x)

我们将自注意力机制应用于每一个卷积层。

 

spectral normalization

不仅在辨别器上应用 spectral normalization同时也在生成器上应用该归一化手段,用以使得 GAN 训练更加 stable

 

TTUR

为辨别器和生成器各自使用不同的学习率,使得在相同时间内模型可以产生更好的结果。

 

Experiments

baseline 
80 
Iterations (k) 
baseline: SN on D 
0 3.5 
Iteration (k) 
100 
C 20 
ä Is 
e 10 
SN on G/D 
Iterations (k) 
SN on G/D 
Iteration (k) 
SN on C/D + TTUR 
400 
Iteration (k) 
SN on C/D + TTUR 
600 
Iteration (k) 
1000

 

从最左面的图可以看到当 baseline 模型采用 1:1 地对 D G 进行更新时,训练过程很不稳定(原本 baseline 5:1 )。

 

同样也可以看到 TTUR 对于模型训练稳定性的显著作用。

 

 

SAGAN 
Model 
FID 
attention 
22.9 
42.87 
eat8 
22.98 
43.15 
eat16 
22.14 
45.94 
eat32 
51.43 
eat64 
18. 5 
eat8 
42.13 
23.17 
Resi 
eat16 
22.40 
44.49 
ual 
eat32 
27.33 
38.50 
eat64 
28.82 
38.96

feat_k 表示在 k*k 特征图上添加自注意力。

通过这里的对比,表面性能的提升不是简单地因为模型深度与学习能力的提升造成的。

 

右边三个图是生成器的最后一个使用注意力机制的网络层的 attention map 的可视化,三种颜色的点分别代表不同的 query location

未经允许,禁止转载,本文源站链接:https://iamazing.cn/