总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下面列的书基本上我写的都是读完过的,...
大数据架构师技能图谱
大数据通用处理平台 Spark Flink Hadoop 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout Spark Mlib TensorFlow (Google ...
金融专业,学matlab和R哪个好?
金融数据应该用R的场景更多,但是matlab也绝对值得学,很简单很容易上手但是真的非常非常强大,andrew在他的机器学习课上讲过一个笑话: “我有一个朋友,他的一个学生赚了很多钱回去拜访他,学生很激...
数据相关从业者到底能挣多少钱?
前言 海外,数据分析专业人才已成为最高薪的人群之一。在中国大数据飞速发展的当下,可以预见到的是,中国的数据分析专业人才也将越来越抢手,成为各个企业竞先争抢的优质人才储备。 诸位数据分析爱好者学习数据分...
手把手教你使用R语言的主成分分析对城管事件数据分析
概念性的东西就不说那么多了,这次使用主成分分析主要目的并不是降维,而是分析城管数据中的事件类别之间是否存在关系,当然,城管事件类型有好几百,这里就只选取从去年九月到目前发生量前十的事件类别;如下图,排...
【译文】实现R与Hadoop联合作业的三种方法
为了满足用R语言处理pb量级数据的需求,我们需要把它和Hadoop联合起来使用。本文的目的就是阐述实现二者联合作业的不同技术。 方法一:利用Streaming APIs Hadoop支持一些 Stre...
Integrating R with Apache Hadoop
(This article was first published on DataScience+ , and kindly contributed toR-bloggers) Integrating...
R语言与Hadoop和Hbase的联合使用
1. 环境准备及HBase安装 文字说明部分: 首先环境准备,这里我选择了Linux Ubuntu操作系统12.04的64位版本,大家可以根据自己的使用习惯选择顺手的Linux。 但JDK一定要用Or...
R可视化—用gglot2做工资的炫酷展示
我们基于美国职业足球大联盟球员的薪水,试用ggplot2做出队员名字对应Club及工资水平的可视化(数据集回复可得)。探索性的展示,我们需要载入plyr和ggplot2包。 1、数据处理 sj <...
如何使用线性回归分析来预测发电厂的发电量
在这篇文章中,我将会教大家如何通过拟合一个线性回归模型来预测联合循环发电厂(CCPP)的发电量。这个数据集则来自于UCI Machine Learning Repository。这个数据集包含5列,也...