R基础篇学习笔记(二)-购物篮分析

  • A+
所属分类:R语言 数据分析

1、MIC查看相关系数

MINE可以发现传统回归算法发现不到的关系

R基础篇学习笔记(二)-购物篮分析

2、关联规则挖掘

算法直观思想:

挖掘数据集:购物篮数据

挖掘目标:关联规则

关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%]

支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋

置信度:购买了牛奶的筒子有60%也购买了鸡蛋

最小支持度阈值和最小置信度阈值:由挖掘着或者领域专家设定

算法名词:

项集:项(商品)的集合

K-项集:k个项组成的项集

频繁项集:满足最小支持度的项集,频繁k项集一般记为Lk

强关联规则:最小支持度阈值和最小置信度阈值的规则

Apriori算法

先算频繁项集->列出所有关联规则->计算置信度->推出关联规则

如I1^I2=>I5,其置信度计算,4表示I1和I2同时出现的支持度及出现的次数,2表示三着同时出现的支持度及三着同时出现的次数

通过设置置信度阈值进行淘汰规则

3、购物篮分析程序

  1. #安装arules包并加载,其内置Groceries数据集
  2. library(arules)#加载arules程序包
  3. data(Groceries)#调用数据文件
  4. inspect(Groceries)#观看数据集里的数据
  5. #利用apriori函数提取关联规则
  6. rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
  7. #列出关联规则
  8. summary(rules)
  9. inspect(rules)
  10. #按照需要筛选关联规则
  11. X=subset(rules,subset=rhs%in%”whole milk” & lift>=1.2)
  12. 按照支持度对求得的关联规则子集排序并观察
  13. inspect(sort(x,by “suport”)[1:5])
  14. #其中lift=P(L,R)/P(L)P(R)是一个类似相关系数的指标。Lift=1表示L和R独立,这个数越大,越表示L和R存在同一个购物篮中不是一个偶然现象。
华青莲
小额消费信贷用户数据
2016年度中国软件开发者白皮书下载(PDF)
基于大数据的用户特征分析
中国大数据生态图谱&大数据交易市场专题研究报告

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: