时间匆匆流逝。
江寒查询了许多文献,又经过了一番深入地思考,终于做好了准备,开始撰写新的论文。
江寒正在研究的,是径向基神经网络,在原本的世界,这是第一种实用化的“人工神经网络”。
这个世界在数学方面的进展,和前世基本一样。
像“多变量插值的径向基函数(RBF)方法”,早在1980年代就已经出现了。
也幸好如此,否则的话,江寒在造汽车之前,还得先发明个轮子……
所谓径向基函数,以本质上来说,就是一个实值函数,该函数的取值仅依赖于与原点或者中心点C的距离。
标准的径向基函数,一般使用欧氏距离,所以也叫欧式径向基函数。
当然,使用其他的距离函数也是没问题的,事实上,最常用的径向基函数,就是高斯核函数……
在RBF神经网络中,除了输入层和输出层之外,有且仅有一层隐藏层。
从输入空间到隐藏层空间,所做的变换是非线性的;而从隐藏层到输出层,却是做的线性变换。
通过隐藏层把向量从低维映射到高维,使得在低维中线性不可分的问题,到了高维之后变得线性可分。
这其实就是核函数的思想。
由于网络的输出和权重参数之间,存在着线性的关系,所以就可以由线性方程组,直接把权重参数求解出来。
这样一来,一方面大大加快了训练速度,另一方面,也可以避免“局部极小”的问题。
训练RBF神经网络的关键,在于求解3个参数。
首先是基函数的中心点,然后是方差,最后是隐含层到输出层的权重。
在训练时,同样需要输入训练数据,然后根据损失函数,采用梯度下降法,修正权重的误差。
这一点,其实与BP神经网络的做法,基本上如出一辙。
所以从本质上来说,RBF就是BP网络的一个特例。
当然,两者之间的区别也很明显。
在RBF神经网络中,距离径向基函数的中心点越远,神经元的激活度就越低。
在逼近目标函数时,神经元的权重取值,只依赖于查询点附近的数据。
因此RBF所做的,只是一种局部逼近。
而在BP网络中,所有数据都会起到同等的作用,是对非线性映射的全局逼近。
第2个区别,是隐藏层的数目不同。
BP神经网络可以有多个隐含层,但是RBF只有一个隐藏层。
从表达能力上来看,RBF是不如BP的,但RBF也有不可取代的优势,那就是训练起来速度极快。
一方面,由于隐藏层较少,计算压力就更小些;另一方面,局部逼近也可以有效地简化计算。
在RBF神经网络中,对于一个输入,只有附近的神经元会有反应,其他的全都被忽略。
这样一来,需要调整的权重参数,自然就大幅度地减少了,也就减轻了计算压力。
此外,还可以从理论上证明,RBF网络是对连续函数的最佳逼近,而容易陷入局部极小的BP网络则不是……
一般来说,使用了核函数技巧的机器学习方案,比如支持向量机(SVM)等,都不怎么适应大数据的情况。
样本量一大,往往会出现极其严重的计算困难。
而RBF刚好解决了这个问题……
星期四那天,这篇论文终于写完了。
当天晚上,江寒吃完饭之后,就开始在电脑上敲论文。
夏雨菲则陪在他身边,做着自己的高考复习题。
时间快到9点的时候,估摸着夏如虹要回来了,他就转移战场,回自己房间继续工作。
又过了将近半个小时,才将论文完全敲进了电脑里。
随后,江寒稍微考虑了一下,就将其发给了《Mae Learning》。
理由嘛,也很简单。
在给自己发来约稿信的期刊中,属这一家的级别最高。
而尽可能地多拿学术点,正是他一以贯之的原则……
将论文提交到ML官网上之后,时间已经差不多9点半。
江寒闭上眼睛,靠在椅背上,稍微休息了一会儿。
虽然是在休息,但大脑并没有彻底放空。
他想到了水晶头骨,以及那个奇怪的卡片。
这些天以来,他一有时间就偷偷研究,想到什么新的思路,就做些实验验证一下。
但可惜的是,并没有任何进展。