数据已经成为现代化企业中最为重要的宝贵资源。一切决策、策略或者方法都需要依托于对数据的分析方可实现。随着“大数据分析”逐步替代其上代版本,即“商务智能”,企业正面临着一个更加复杂、且商业情报规模更为庞...
R语言数据分析实战:十大算法之K-均值聚类
一、准备 K-均值算法是聚类分析算法的一种。通常情况下,我们可能不知道每个数据样本从属的类别,样本没有分类标签,这时我们可以尝试采用K-均值聚类来解决这个问题。 K-means算法是最简单的一种聚类算...
数据报告|数据科学从业者,你要怎样才能赚更多钱?(附下载)
作为数据控的你内心肯定特别关注数据行业未来的赚钱能力,而知名计算机图书出版商O'Reilly近日发布的《2016数据科学从业者薪酬报告》就提供了答案。 ▍报告要点 O'Reilly根据来自45个国家9...
中国各城市PM2.5数据间的相关分析
中国各城市PM2.5数据间的相关分析 相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相...
大数据工具R语言、Python、Scala 和 Java该如何选择?
前言有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?...
R语言数据分析实战:十大算法之C5.0算法
学习和应用数据挖掘算法,就从这十大经典数据挖掘算法入手,若是把这top 10 算法吃透了,数据挖掘也就有了根基了。 一、准备 安装分析挖掘相关包 install.packages(c("adabag"...
如何用Python高效地学习数据结构?
今天的每日一答,我们来看看如何高效地学习一门语言的数据结构,今天我们先看Python篇。 所谓数据结构,是指相互之间存在一种或多种特定关系的数据类型的集合。 Python在数据分析领域中,最常用的数据...
聚类分析实战解析与总结
聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化...
R语言神经网络模型银行客户信用评估实战(附数据集)
随着银行业务的扩展、P2P的出现、第三方支付提供个人贷、以及X宝等借贷平台的出现,使得个人信用评估在银行、第三方支付、商业借贷平台等上的应用越来越重要。本文利用BP人工神经网络对商业银行针对个人的信用...
Python中类的全面分析(下)
Python中类的全面分析(上) 类的继承 Python 是面向对象语言,支持类的继承(包括单重和多重继承),继承的语法如下: class DerivedClass(BaseClass1, ): ...