来自微额消费信贷行业第一线的实战数据!!!数据集中共有1138个特征,以用户的多维度行为数据为主。既有数值型特征,也有类别型特征,且均经过脱敏处理。
¥12元
来自小额消费信贷行业第一线的实战数据!!
不仅有常规的带标签数据,还有无标签的数据供大家挑战semi-supervised learning。
数据集中共有1138个特征,以用户的多维度行为数据为主。既有数值型特征,也有类别型特征,且均经过脱敏处理。
数据主要包含以下几类:(编码均为UTF-8)
1) 训练集(带标签):
15,000个样本 带标签的训练集中共有15,000个样本。train_x.csv中存有样本的特征信息,uid为样本的id,x0、x1、x2...为特征。train_y.csv中存有样本的标签信息,uid为样本的id,y为样本的标签:1为正样本(人品杠杠滴),0为负样本(人品堪忧);
2) 测试集:
5,000个样本 test_x.csv中存有测试集的特征信息,格式同train_x.csv。参赛者的目标是尽可能准确地区分测试集中样本的标签。
3) 训练集(无标签):
50,000个样本 在小额信贷的真实场景中,除了放款的客户(人品已知),还有相当一部分被拒绝的客户,他们的人品是未知的。其中有50,000个样本,存在train_unlabeled.csv中,格式同train_x.csv。供大家进行semi-supervised learning的探索。
4)特征描述:
features_type.csv为1138个特征的类型资料;feature为特征名:x1, x2, x3...type为特征类型:numeric(数值型)或category(类别型)。
支付宝打赏
微信打赏
赏