“What is a neural network? To get started, I’ll explain a type of artificial neuron called a perceptron. Perceptrons were developed in the 1950s and 1960s by the scientist Frank Rosenblatt, inspired by earlier work by Warren McCulloch and Walter Pitts. Today, it’s more common to use other models of artificial neurons - in this book, and in much modern work on neural networks, the main neuron model used is one called the sigmoid neuron. ”

[TOC]

第2章感知机

感知机（perceptron，模拟人类视神经控制系统的图形识别机）是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值，属于判别模型。

2.1 感知机模型

2.1.1 感知机原始模型

先举个例子介绍一下感知机的原始模型，例子如下:

⽰例中的感知器有三个输⼊，。通常可以有更多或更少输⼊。 Rosenblatt 提议⼀个简单的规则来计算输出。他引⼊权重，，表⽰相应输⼊对于输出重要性的实数。神经元的输出， 0 或者 1，则由分配权重后的总和⼩于或者⼤于阈值决定。和权重⼀样，阈值是⼀个实数，⼀个神经元的参数。⽤更精确的代数形式： $\begin{eqnarray} \mbox{output} & = & \left\{ \begin{array}{ll} +1 & \mbox{if } \sum_j w_j x_j \geq \mbox{ threshold} \\ -1 & \mbox{if } \sum_j w_j x_j < \mbox{ threshold} \end{array} \right. \tag{1}\end{eqnarray}$ 上面代数形式的条件 $\sum_{j} w_{j} x_{j}$ 可以用向量点乘的形式来简化；同时把阈值移到不等式的另⼀边，并⽤感知器的偏置 b ≡ -threshold 代替。简化后如下：

$\begin{eqnarray} \mbox{output} = \left\{ \begin{array}{ll} +1 & \mbox{if } w\cdot x + b \geq 0 \\ -1 & \mbox{if } w\cdot x + b < 0 \end{array} \right. \tag{2}\end{eqnarray}$

*PS：这⾥ w 和 x 对应权重和输⼊的向量，b代表偏置向量。 *

令 $z = w \cdot x + b$ ，则 output (阶跃函数)如下图所示：

2.1.2 感知机的几何解释

线性方程 $w\cdot x + b = 0$ 对应于特征空间 $R^n$ 中的一个超平面S，其中w是超平面的发向量，b是超平面的截距。这个超平面将特征空间划分成2个部分，位于2部分的点（特征向量x），分别被分为正、负两类。因此，超平面S称为分离超平面（separating hyperplace）。如下图2.1所示：

PS：关于该几何解释，如果不懂，可以搜索向量内积的几何解释

2.1.3 S形神经元

感知机算法对应神经网络的S形神经元

正如⼀个感知器， S 型神经元有多个输⼊， $x_1, x_2, \ldots$ 。但是这些输⼊可以取 0 和 1 中的任意值，⽽不仅仅是 0 或 1。例如， 0.638 是⼀个 S 型神经元的有效输⼊。同样， S 型神经元对每个输⼊有权重 $w_1, w_2, \ldots$ ，和⼀个总的偏置 b 。但是输出不是 0 或 1。相反，它现在是 σ(w · x + b)，这⾥ σ 被称为 S 型函数，定义为： $\begin{eqnarray} \sigma(z) \equiv \frac{1}{1+e^{-z}}. \tag{3}\end{eqnarray}$ 把它们放在⼀起来更清楚地说明，⼀个具有输⼊ $x_1, x_2, \ldots$ ，权重 $w_1, w_2, \ldots$ ，和偏置 b 的 S 型神经元的输出是： $\begin{eqnarray} \frac{1}{1+\exp(-\sum_j w_j x_j-b)}. \tag{4}\end{eqnarray}$ S 型神经元的 output 关于 Z 函数如下图所示：

2.2 感知机学习策略

2.2.1 数据集的线性可分性

对于训练集 $T={（x_1，y_1）,（x_2，y_2）,···,(x_n,y_n)}$ ，存在超平面 S ( w.x + b = 0) 能够将 T 的正实例点和负实例点完全正确地划分到超平面的两侧（即：对任意 $y_i = +1$ 的实例，都有 $w.x_i + b > 0$ ；对任意 $y_i = -1$ 的实例，都有 $w.x_i + b < 0$ ；），则称T为线性可分数据集；否则，称为线性不可分。