机器学习-无监督学习1

无监督学习简介

    无监督学习的概述 k-means算法的介绍 主成分分析(PCA)介绍 流形学习介绍之LLE

无监督学习的概述

无监督学习的概念与意义

概念:在没有标签即Y的数据下的学习方法,叫做无监督学习。例如,将用户根据历史的操作行为进行聚类分析。

意义:

    根据事物的本身属性去分辨事物,训练样本标记信息未知,可以通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提供基础。 与监督学习相结合,产生半监督学习等。 用于神经网络隐藏层的感知函数定义等。 无监督学习与人类的学习过程相类似。

无监督学习的主要方法

    聚类:k-means、层次聚类、密度聚类 神经网络中的稀疏化编码 降维:PCA

无监督学习的主要应用

    群体分类、挖掘分割 挖掘数据内部特征

k-means算法的介绍

聚类算法的主要思想 物以类聚,人以群分 定义距离的度量: 常见的相似性和距离度量方式

    明可夫斯基距离 杰卡德相似系数(数据维度不同可化为同维) 余弦相似度

k-means的主要算法 k-means算法是很典型的基于距离的聚类算法,将距离作为相似性的评价指标。它可以将具有相似性的样本聚成一类。 算法具体流程 目标函数及求解 k-means的分析和扩展

怎样选择聚类数目

    Canopy算法 实际的先验知识(或业务数据逻辑) Canopy算法流程: 聚类衡量指标 均一性 完整性 V-measure ARI AMI 轮廓系数
经验分享 程序员 微信小程序 职场和发展