- A+
1、MIC查看相关系数
MINE可以发现传统回归算法发现不到的关系
2、关联规则挖掘
算法直观思想:
挖掘数据集:购物篮数据
挖掘目标:关联规则
关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%]
支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋
置信度:购买了牛奶的筒子有60%也购买了鸡蛋
最小支持度阈值和最小置信度阈值:由挖掘着或者领域专家设定
算法名词:
项集:项(商品)的集合
K-项集:k个项组成的项集
频繁项集:满足最小支持度的项集,频繁k项集一般记为Lk
强关联规则:最小支持度阈值和最小置信度阈值的规则
Apriori算法:
先算频繁项集->列出所有关联规则->计算置信度->推出关联规则
如I1^I2=>I5,其置信度计算,4表示I1和I2同时出现的支持度及出现的次数,2表示三着同时出现的支持度及三着同时出现的次数
通过设置置信度阈值进行淘汰规则
3、购物篮分析程序
- #安装arules包并加载,其内置Groceries数据集
- library(arules)#加载arules程序包
- data(Groceries)#调用数据文件
- inspect(Groceries)#观看数据集里的数据
- #利用apriori函数提取关联规则
- rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
- #列出关联规则
- summary(rules)
- inspect(rules)
- #按照需要筛选关联规则
- X=subset(rules,subset=rhs%in%”whole milk” & lift>=1.2)
- 按照支持度对求得的关联规则子集排序并观察
- inspect(sort(x,by “suport”)[1:5])
- #其中lift=P(L,R)/P(L)P(R)是一个类似相关系数的指标。Lift=1表示L和R独立,这个数越大,越表示L和R存在同一个购物篮中不是一个偶然现象。
支付宝打赏
微信打赏
赏