JustSong Archive Link About
Projects
Categories
Others

L5 径向基网络 RBF Network

Tag: OneNote 模式识别 Posted on 2020-08-11 21:05:45 Edited on 2020-08-11 21:06:14 Views: 145

Radial Basis Function (RBF) 函数

RBF 径向基函数:对中心点径向对称且衰减的非负非线性函数

高斯函数是最常用的一个:

= ехр 
2v2 
i=1

其中的 v u 的参数解释:

对于每一个输入 x,每一个神经元通过其中心参数 u 以及宽度参数 v 来确定输出:

Different center 
Case 2 
Diffe rent width 
1 
Ca 
x 
x

 

径向基网络的输出

W 12

WkjOj(X) 
outputk(x) =

可见每个神经元都有一个权重参数 w

 

径向基网络为什么有效?

隐藏层做了一个从输入空间到隐藏空间的映射,在该隐藏空间我们可以使用线性分类器对其进行分类。

图示:

 

参数如何确定

方法一:

有三种参数:

  1. 径向基函数的 u v
  2. 神经元的权重 w

 

参数 u 的确定方法:使用 K-mean 聚类,以聚类中心作为参数 u 的值。

参数 v 的确定方法:即属于同一聚类的均值 / 方差作为参数 v 的值。

(这样我们就确定了映射 𝜙

参数 w 的确定方法(Least Squares Algorithm):需要计算逆矩阵或者伪逆,

+ 号表示矩阵的伪逆,-1 表示矩阵的逆;如果没有逆矩阵的话就算伪逆)

 

方法二(梯度下降法):

冖 n+1)=wt(n)—lll 
Dwt(n) 
DE(n)

ui(n + 1) = — 172

0E(n) 
Vi(n+ 1) = Vi(n) — 113 
OVi(n)

 

RBF 网络应用例子:解决 XOR 问题

Input space 
(0,1) 
(0,0) 
Output space 
(1,1) 
(1,0) 
1 
Construct a RBF network such that 
(0,0) and (1, 1) are mapped to 1, class Cl 
(1,0) and (0, 1) are mapped to 0, class C2

 

这里我们只需要两个映射函数,因此隐藏空间也是 2 维的:

Ф1(х) 
Ф2(х) 
llx—u1112 
= ехр — 
llx—u2 112 
= ехр 
2V2

映射后的样本点:

(0,0) 
1.0 
0.5 
(0,1) 
0.5 
1.0

之后计算权重向量 W

ı 
0.3678 
0.1353 
0.3678 
0.1353 
0.3678 
ı 
0.3678 
1 
ı 
1 
IVI 
v•V3 
1 
0

求得:

2.284 
2.284 
-1.692

这里要注意的一点是偏置是在通过映射函数 𝜙 之后加的,至于为什么,请看网络图:

 

RBF 网络的特点

优点:

  1. 训练起来比 MLP 快。
  2. 隐藏层的可解释性较好。

 

缺点:

测试过程中,神经元的计算量较大,因此要比 MLP 慢。

 

Regularization

In most cases, the solution ( discriminant function) is not unique, so which one is the best?

 

过拟合问题:最小化经验误差而非真实误差。

Regularization is one of the methods to handle this 
problem 
v/ Add regularization term in objective function to 
measure the "smoothness" of the decision plane 
v/ Tradeoff parameter(A) to control the importance of 
training accuracy and regularization term 
Seek a smooth classifier with good performance on a 
training set 
v/ May sacrifice training accuracy for the simplicity of a 
classifier if necessary 
Minimize: R emp -k IV (f) 
Regularization 
Training 
Error 
Term

 

超参数 λ 的不同取值对模型的影响:

• 
• 
Similar to traditional 
training objective 
function 
No effect on the 
regularization term 
0 < I < 00 
If we can find 
suitable A, we may 
find f with a good 
generalization ability 
x 
00 
Dominated by the 
regularization term 
The most smooth 
classifier is found 
o 
o 
o 
X 
o 
X

 

常见的正则化项:

(即向量 w L2 范数的平方,L2 范数就是平方和的开方)

 

Practical Techniques

Must consider following issues

  1. Scaling input:使用正则化 Normalization / Standardization 来把不同 feature 缩放到合适的尺寸,以减少因尺度不同造成的影响。
  2. Target values:即如何使用数字表现类别(离散值)?通常使用 one of c representation;例如对于一个有 4 个类别的问题:

—1) 
(01 = 
—1) 
(03 = -ι, ι, -ι) 
1) 
-1, 
(0,0, 1,0)

  1. Number of hidden layers:隐藏层较多时:
    1. 后向传播算法的效率下降。
    2. 导致更多的 local minimal 以及是模型变得更加复杂。

通常推荐使用 3 层的网络。

  1. Number of hidden units:通常来讲网络的参数不应比训练样本的个数还要多,这说明网络的参数个数与训练样本的个数可能相关。这里我们选择参数的个数大致为训练样本个数的 1/10(间接确定了隐藏层单元的个数)。
  2. Initializing weights:显然对于多层感知机我们不应该把参数都初始化为 0,除此之外,过大或过小都有问题:

If w is initially too small 
the net activation of a hidden unit will 
be small and the linear model will be 
im plem ented

If w is initially too large 
the hidden unit may saturate 
(sigmoid function is always 0 
or I) even before learning 
begi ns

SÉmoid Funk 
Saturate 
Linear 
Saturate

Saturate 饱和的)

  1. Stochastic and batch training
    1. Batch learning is typically slower than stochastic learning.
    2. Stochastic training is preferred large redundant training sets
  2. Stopped training:另外分出一个验证集,在验证集上进行测试,找出合适的早停点,如图:

Validation Error 
Generalization Error 
Training Error 
2 
4 
5 
7 
s 
9 
10 
11

 

 

问题