Apriori算法(经典的发现频繁项目集算法)分析
基本概念
- I是一个项目集合,事务数据库D是由一系列具有唯一标识TID的事务组成,每个事务t都对应I上的一个子集
- 支持度:项目集I1在数据集D上的支持度是包含I1的事务在D中所占的百分比
- 频繁项目集:对项目集I和事务数据库D,T中所有满足用户指定的最小支持度的项目集,即大于或等于minsupport的I的非空子集
- 最大频繁项目集:在频繁项目集中挑出所有不被其他元素包含的频繁项目集!!
- 规则的可信度:包含I1,I2的事务数与包含I1的事务数之比(confidencex->(l-x))=support(l)-support(x1)
- 强关联规则:D在I上满足最小支持度和最小信任度的关联规则
关连规则挖掘问题可以划分成两个子问题:
- 发现频繁项目集
- 生成关联规则
下面看一个经典例题: 解题过程:
上一篇:
通过多线程提高代码的执行效率例子
下一篇:
java之Lambda表达式简化代码