Apriori算法(经典的发现频繁项目集算法)分析

基本概念

  1. I是一个项目集合,事务数据库D是由一系列具有唯一标识TID的事务组成,每个事务t都对应I上的一个子集
  2. 支持度:项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比
  3. 频繁项目集:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度的项目集,即大于或等于minsupport的I的非空子集
  4. 最大频繁项目集:在频繁项目集中挑出所有不被其他元素包含的频繁项目集!!
  5. 规则的可信度:包含I1,I2的事务数与包含I1的事务数之比(confidencex->(l-x))=support(l)-support(x1)
  6. 强关联规则:D在I上满足最小支持度和最小信任度的关联规则

关连规则挖掘问题可以划分成两个子问题:

  1. 发现频繁项目集
  2. 生成关联规则

下面看一个经典例题: 解题过程:

经验分享 程序员 微信小程序 职场和发展