快捷搜索: 王者荣耀 脱发

传统机器学习算法优缺点总结

传统机器学习算法优缺点总结

算法 优点 缺点 K-最近邻 算法实现简单,预测的精度一般也较高 对预测集的每个样本都需要计算它和每个训练样本的相似度,计算量较大,尤其是训练集很大的时候,计算量会严重影响算法的性能 决策树 准确率较高,可解释性强,对缺失值、异常值和数据分布不敏感等 对于连续型的变量需要离散化处理,容易出现过拟合现象等 朴素贝叶斯分类算法 计算简单,在数据量较少的情况下依然有效,也适用于多分类的问题 属性的相互独立假设在实际问题中可能得不到很好的满足。 该算法在医学、经济和社会领域都有广泛的应用。 支持向量机(SVM) 有充分的理论基础,并且最终的决策只由少数的支持向量确定,算法的复杂度取决于支持向量的数量,而不是样本空间的维数,所以计算量不是很大,而且泛化准确率较高 对参数调节和核函数的选取比较敏感,而且在存储和计算上占用较多的内存和运行时间,所以在大规模的样本训练上有所不足 随机森林 不容易过拟合,适合数据的类型多样,具有很好的抗噪声能力,结果容易理解,可以并行化,算法计算速度快等 对小数据集可能效果不理想,计算比单棵决策树慢,可能出现相似的树,投票结果影响正确的决策 k-Means算法 算法简单、快速,合用于近似球状的簇,对非球形效果不明显 一般要求所有的数据都放入内存,这限制了它在大规模数据上的应用。 还要求用户预先指定聚类的个数,但在大多数实际应用中,最终的聚类个数是未知的。 只使用某一固定的原则来决定聚类,这就使得当聚类的形状不规则或大小差别很大时,聚类的结果不能令人满意 层级聚类 多层次聚类结构清晰可见 无全局目标函数,聚类算法容易陷入局部最优,同时也容易受噪声、孤立点、奇异值的影响 基于密度聚类的算法 优点是扫描一遍,且不受形状、噪声和孤立点数据对象的影响,不用提前给出聚类数 不足是算法复杂度较高,同时聚类结果的质量和数据的密度有直接关系,要求待聚类数据的密度有起伏,并且该方法对参数设置十分敏感

User CF 和 Item CF

经验分享 程序员 微信小程序 职场和发展