机器学习面试笔记整理7-Adaboost

算法思想

上一轮样本分布—>基分类器进行学习—>误差率—>分类器权重—>更新样本权重

优缺点

优点: 1.可使用不同分类器(LR,DT…)作为基分类器 2.精度高

缺点: 1.对异常值敏感 2.基分类器数目(迭代次数)不好设定 3.对样本不平衡敏感

面试问题收集

1. 样本、分类器权重如何确定的? 根据上一轮的误差率e求得本轮分类器权重(与e成反比),再由分类器权重求得样本权重。(面试可能需要让进行公式推导)

3. 输出结果? 加权多数表决(权重*基分类器i结果),加大分类误差率小的弱分类器权重,减小分类误差率大的弱分类器权重。

4. 损失函数是什么? 指数损失

5. 为什么用指数损失函数? 其连续可微,可替代0-1损失函数作为优化目标

6. 讲一讲前向分步思想? 利用前一轮的学习结果更新后一轮训练集权重,再进行学习

7. 权重提升怎么体现在分类器上? 体现在每轮的误差率,分类器的权重与该误差率成反比 Ps:机器学习的权重分为三部分:特征权重,样本权重,分类器权重 特征权重:LR,SVM 样本权重:Adaboost,训练样本类别不均衡, 分类器权重:Adaboost

8. Adaboost是如何改变样本权重? 提高被分错样本权重,减小分类正确样本权重,根据当前基分类器的权重,将分错样本的权重进行指数级别地增大,分对样本的权重减小。

经验分享 程序员 微信小程序 职场和发展