JustSong Archive Link About
Projects
Categories
Others

Adversarial Feature Hallucination Networks for Few-Shot Learning(CVPR 2020)

Tag: 论文阅读笔记 Posted on 2020-09-01 23:33:00 Edited on 2020-09-01 23:33:19 Views: 131

Abstract

FSL  的一种解决方法就是 data augmentation,但是目前许多相关的研究所提出的模型不能很好地保证生成数据的 discriminability(辨别性) 以及 diversity(多样性)。

 

这篇文章提出了基于 cWGAN Adversarial Feature Hallucination Network 以及两个新的正则化器(regularizer):分类正则化器以及 anti-collapse 正则化器。

 

Introduction

为了处理这种有标签数据稀少的情况,目前有以下几种方法:

  1. 提供特征表示的可辨别性,以至于一个简单的线性模型也可以在已有的有标签数据的基础之上取得令人满意的结果。
  2. 利用仅有的有标签数据快速高效地更新神经网络的权重,通过一个元神经网络或者学习一个元学习模型。
  3. 基于已有的有标签数据人工生成新的数据。

 

本文所提出的方法属于上述第三类。

尽管当前已有很多相关的方法:

  1. Some methods learn a finite set of transformation mappings between samples in each base (label-rich) classes and directly apply them to seed samples of novel (labelscarce) classes. 但是这种随意的映射可能会毁掉生成样本的可辨别性。
  2. 另一些方法专门针对特定任务来合成样本,从而规范了样本的合成过程,保证了可分辨性。但是由于这些任务会限制生成过程,导致这些生成样本倾向于坍缩为特定模式,从而没办法保证多样性(???)。

 

本文所提出的方法 AFHN 包含了一个新的分类正则化器,其保证了合成的样本的特征与同属同一类别的真实样本的特征具有高相关性,与来自不同类别的真实样本的特征的相关性较低,从而保证了可辨别性

 

条件 GAN 易于遭受模式坍缩问题(所生成的样本仅来自于少数分布模式),为了避免这个问题,本文提出了一个新的对抗坍缩的正则化器,当模式坍缩时其将赋予分类器较高的惩罚。

其基于这样的观察:在隐藏空间中相近的噪声向量更易于坍缩到同一个模式。因此该正则化器直接针对生成的特征向量的相似度与原噪声向量的相似度的比进行惩罚在这种约束下,生成器被迫探索较小的分布模式,从而促进了合成特征的多样性

 

Methodology

首先 AFHN 基于条件 Wasserstein GAN (WGAN),而 WGAN 是在初始的 GAN 上的目标函数上加上了 Wasserstein 距离:

mm max 
E - 1)21

注意:

这里 p 是随机的噪声分布。

 

首先我们利用支持集中的样本以及特征提取网络 F 为每个类别产生一个相应的原型:

如果有多个样本就取平均。

 

现在生成器 G 基于原型来生成假的 feature

其中 zi 服从标准正太分布。

为什么要生成两个呢?因为要用到它们的比。

 

目前的损失函数的形式:

L 
GAN, = 
+A E - 1)21, 
Zi)l 
1,2.

 

但是这样训练出的模型会遭受 mode collapse 问题,因此需要为该损失函数添加一个 classification regularizer

一个非参数分类器:

(bxlfi bti)d

其中:

  1.  (x_q, y_q) 是查询集中的一个样本,q = F(x_q).
  2.  是为第 j 个类别生成的第 i 的假 feature vector
  3. cos 即余弦相似度(至于为什么这里要用余弦相似度而非欧式距离,是受一篇论文的影响)。

 

基于上述说提到的分类器,我们可以给出该分类正则化器的定义:

Q_T 表示 Query Set

We can see that this regularizer explicitly 
encourages the synthesized features to have high correla- 
tion with features from the same class (the conditional con- 
text), while low correlation with features from the different 
classes.

 

anti-collapse 正则化器

I — cos(kl, 42) 
car 
1 — cos(zl, z2)

可见其鼓励噪声向量的相似度相差较小,但所生成的对应的特征向量之间的相似度相差较大,因此其鼓励了生成样本的多样性 diversity

 

添加这两个正则化器后的损失函数:

min Σ l-•GAN, + (Ι + βπ

整个的算法流程:

Algorithm 1. Proposed FSL algorithm 
Input: Training set = {Xt, yt}, parameters A, o, and 
Output: Feature extractor F, generator G, discriminator D. 
l. Train F as a standard classification task using Dr. 
while not done do 
// Fix G and update D. 
2. Sample from a batch of FSL tasks Tid p(Pt). 
For each Tid do 
3. Sample a support set ST = { and 
query set QT ¯ 
4. Compute prototypes of the N classes p — 
where = -k F (Xi.j). 
5. Sample N noise variables = and 
variables 32 ¯ 
6. Generate fake feature Él = 
and = {i} according to Eq. (3). 
7. Update D by maximizing Eq. 
end For 
// Fix D and update G. 
8. Sample from a batch of FSLtasks T' p(Dt). 
For each Tig do 
9. Execute steps 3 - 7. 
10. Update G by minimizing Eq. (8). 
end For 
end while

mill luax + + β—

 

Experiments

Ablation study

cWGAN 
CR 
X 
5273 
X 
55.65 
X 
57.58 
6056 
62.38

第一个是直接用 SVM 在特征提取(RseNet18)过后的特征向量上的结果(accuracy)。

 

 

基于 t-SNE 的可视化

cWGAN 
cWGAN + CR 
cWGAN + CR + AR

作者说第三个相比第二个的多样性更高:

  1. 后者密度较低
  2. 后者多了一些噪声

 

 

未经允许,禁止转载,本文源站链接:https://iamazing.cn/