神经网络(三)分类器与线性模型

一、线性分类

线性分类器:属于监督学习

1.线性分类模型

称判别函数,因其由一根直线将平面划分成两份,所以称线性分类模型

线性分类模型 = 线性判别函数 + 线性决策边界

2.二分类问题

①模型

②损失函数

0-1损失函数: (判定是否正确,但是不能求导)

3.多分类问题

①模型

a)一对其余:转换为多个二分类。有几类需要构建几种分类器,但是交叉区域可能才出现未知。

b)一对一:每两个类之间建立分类器(个分类器),采用投票的方式决定分类。同样存在不明的交叉区域(略小),且对于多中分类过于复杂。

c)argmax:对一对其余的改进,由其在各区域得分作为分类依据(分数最高)

预测函数:

 二、交叉熵与对数似然

1.交叉熵

熵:用以衡量一个随机事件的不确定性,熵↑,随机信息越多(干扰信息)

自信息:一个随机时间包含的信息量 I(x) =-log p(x)

熵可以描述为:随机变量X的自信息的数学期望

其分布为:

熵编码:在对分布p(y)的符号进行编码时,熵H(p)也是理论上最优的平均编码长度

交叉熵:按照概率分布q的最优编码对真实分布为p的信息进行编码的长度。

在给定q的情况下,若p和q越接近,交叉熵越小

KL散度:用概率分布q来近似p时所造成的信息损失量

2.对数似然

交叉熵在机器学习的应用

真实分布 预测分布

KL散度

交叉熵损失

负对数似然

三、Logistic回归

①模型

②损失函数

将分类问题看作条件概率估计问题,通过引入激活函数g,将线性函数f转换为概率

以二分类为例,问题将会变为估测两个概率 和

激活函数g:将线性函数的值域挤压到(0,1)之间,以表示概率。

③Logistic函数

Logistic回归:

④学习准则

预测条件概率:

真实条件概率:

交叉熵:

梯度下降:

风险函数: 交叉熵的平均值的负数

梯度:对风险函数求导->

迭代更新:

四、Softmax回归

应用于多分类问题

①模型

②学习准则

转换为条件概率建模:

③Softnax函数

对于K个标量x1,...xk

④Softmax回归

向量表示:

⑤交叉熵损失

向量表示:

⑥学习准则

风险函数:

梯度下降:

 五、感知器

①模型

模拟生物神经元行为,包含权重(突出)、偏置(阈值)、激活函数(细胞体),输出结果为+1或-1

类似于Logistic函数

②学习目标

找到权重 使得

③学习方法

错误驱动的在线学习算法。

1.初始化一个权重向量w<-0(一般为零向量)

2.每次分错一个样本(x,y)时,即,则使用这个样本来更新权重

④损失函数

由错误驱动的在线学习算法反推得到 (不更新时为0)

⑤学习过程

⑥收敛性

对于给定的训练集D且线性可分,令R是训练集中最大的特征向量的模,即,感知器使用错误驱动在线学习算法时权重更新次数不超过

六、支持向量机

①最大间隔

间隔:决策边界到分类样本的最短距离

②支持向量机

点到超平面的距离:

支持向量机的目的是寻找一个超平面使得 最大

③软间隔

为了容忍部分不满足约束的样本,可以引入松弛变量

原式:

转换为:

④损失函数

七、小结

经验分享 程序员 微信小程序 职场和发展