神经网络作为深度学习的基础,是受生物神经系统启发提出的一种模型,它在生物学基础上对神经系统处理信息的方式进行了适当地简化,实现了让机器具备“思考”和“学习”的能力。
大脑是人类拥有智慧的关键,虽然总体来说,现代科技水平距离完全了解大脑的运行机制还相差甚远,但是结合生物学、物理、化学等分析方法,对大脑的研究也在不断地取得进展。
神经元是构成生物神经系统的基本单元,最新的研究成果表明,人类大脑大约由860亿个神经元构成,这是一个非常庞大和复杂的系统,为了更好地理解人工神经网络的原理,接下来简单地描述神经元的结构和工作方式。神经元的主要部分包括细胞体、树突和轴突,轴突末端有许多神经末梢在需要传递信息时可与其他神经元进行接触,被称为突触。神经元之间有几种不同的连接方式,以轴突——树突型为例,神经元通过树突与其他神经元的突触接触,接收其他神经元发出的神经信号(电脉冲),并对信号进行整合,如果整合后的信号超过某个阈值,则该细胞被激活并产生一个电脉冲信号沿轴突向其他神经元传递,这构成了一个完整的输入输出过程(图6-1)。
图6-1
依据生物神经网络的这种工作方式,心理学家、控制论专家沃伦·麦卡洛克和数理逻辑学家瓦尔特·皮茨在1943年提出了人工神经网络(Artificial Neural Network,ANN)的概念和人工神经元的数学模型,开创了人工神经网络研究的时代。唐纳德·赫布在1949年提出的神经心理学理论,给出了神经元模型的学习法则。沿着这个方向,康奈尔航空实验室的心理学家弗兰克·罗斯布拉特认为通过模拟大脑的这种工作方式可以创造出识别物体的机器,并将其称为“感知器”。他在实验室完成了感知器的仿真,使得计算机能够识别一些字母。据1958年的《纽约时报》报道,“……一种电子计算机的雏形,它将能够走路、说话、看、写、自我复制并感知到自己的存在……据预测,不久以后,感知器将能够识别并叫出人的名字,能把演讲内容立即翻译成另外一种语言并记录下来”。这些事情在当时看起来似乎遥不可及,但是在深度学习理论大行其道的今天,这些其实都已经变成了现实,这也在某种程度上体现了他对感知器理论深刻的预见性。
按照现代神经网络理论,感知器可以看作是具有单层计算单元的神经网络。如图6-2所示,对比生物神经元的工作方式,可以按如下方式理解一个感知器(做了适当的简化)。
图6-2
其中x1,x2,x3是其他三个神经元传递来的信息,b是外部作用带来的偏置,简单起见,也可以理解为从外部传递的信息。由于神经元之间的连接方式不同,造成不同来源的信息在传递过程中突触对信息的加强或者衰减作用不同,这种差异在人工模拟时是通过使用不同的连接权重ω1,ω2和ω3来体现的。为了记号的统一,接下来把b记为ω0,用x0=1表示对应的输入。有了上述的记号,这个人工模拟的神经细胞接收到的信息就可以写成
v=x0ω0+x1ω1+x2ω2+x3ω3
对于输入的信息,神经细胞存在不同的处理机制。在人工模拟时,是通过使用不同的函数来表示这些处理机制的,这些函数称为激活函数。下面介绍一种简单的激活函数,它的定义为
这表示当神经细胞接收到的输入信息v0时,输出为1;当输入信息v≤0时,输出为-1。更一般地,当有n个输入信息x1,x2,…,xn并对应到n个连接权重ω1,ω2,…,ωn时,一个一般的感知器的数学模型可以表示为
它表达的含义是输入一些信号(x),使用不同的连接强度(ω)传递给感知器,感知器接收到信号后按照特定的处理方式(f)处理并输出。