机器学习系列(一), 监督学习和无监督学习
常见的机器学习任务,可以分为监督学习和无监督学习两类
1,监督学习
监督学习的样本集是既有特征也有结果的数据,即已知输入与输出值。监督学习的任务时根据这些已知特征和结果的数据,训练模型,使得模型能够根据输入的特征值,预测结果。例如,已经有个数据即,包含了某地房子价格的相关数据,每条数据包含房子的面积、楼层、房龄和售价。在这里面积、楼层、房龄是特征值,售价结果值,根据这一组数据训练的一个模型。当向模型中输入一个未知售价的房子的面积、楼层、房龄三个参数,能够预测出合理的售价。这个例子就是一个典型的有监督学习任务。
2、无监督学习
与有监督学习不同,无监督学习是指数据样本是只有特征值而没有结果值得一组数据。例如:Google的聚合新闻就是典型的无监督学习应用,其基本功能是将网络上各种新闻按照不同的主题聚合到一起进行分主题呈现,例如将“俄乌战争”相关的全部新闻都放到“俄乌战争”这个主题下面。这个任务中,要分多少个主题,每个主题是什么、哪些资讯聚集到哪个主题下面,这些统统不是人工设定的,而是通过无监督学习自动完成的。
3、回归
回归分析是监督学习的一种,是指输出结果是连续数字的任务,例如上一节中的房价预测模型中,房价是一个连续的数字,因此这个任务是一个回归分析。
4、分类
分类是监督学习的一种,是指输出结果是离散值的任务,例如:根据一组肿瘤的大小、位置、患者年龄预测肿瘤是恶性还是良性的。这个任务中,输出只有“恶性”和“良性”两种,所以这是一个分类问题。
5、聚类
聚类是一种数据分组技术,属于无监督学习的一种。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。
相关算法可以参考这篇文章: