机器学习-无监督学习1
无监督学习简介
-
无监督学习的概述 k-means算法的介绍 主成分分析(PCA)介绍 流形学习介绍之LLE
无监督学习的概述
无监督学习的概念与意义
概念:在没有标签即Y的数据下的学习方法,叫做无监督学习。例如,将用户根据历史的操作行为进行聚类分析。
意义:
-
根据事物的本身属性去分辨事物,训练样本标记信息未知,可以通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提供基础。 与监督学习相结合,产生半监督学习等。 用于神经网络隐藏层的感知函数定义等。 无监督学习与人类的学习过程相类似。
无监督学习的主要方法
-
聚类:k-means、层次聚类、密度聚类 神经网络中的稀疏化编码 降维:PCA
无监督学习的主要应用
-
群体分类、挖掘分割 挖掘数据内部特征
k-means算法的介绍
聚类算法的主要思想 物以类聚,人以群分 定义距离的度量: 常见的相似性和距离度量方式
-
明可夫斯基距离 杰卡德相似系数(数据维度不同可化为同维) 余弦相似度
k-means的主要算法 k-means算法是很典型的基于距离的聚类算法,将距离作为相似性的评价指标。它可以将具有相似性的样本聚成一类。 算法具体流程 目标函数及求解 k-means的分析和扩展
怎样选择聚类数目
-
Canopy算法 实际的先验知识(或业务数据逻辑) Canopy算法流程: 聚类衡量指标 均一性 完整性 V-measure ARI AMI 轮廓系数
上一篇:
通过多线程提高代码的执行效率例子