作者:沙漠君 不少朋友看了沙漠君的文章后,都会问:那几十万条租房,二手房,薪酬,乃至天气数据都是从哪里来的?其实我还没告诉你这些数据在十几分钟内就可以采集到! 一般我会回答,我用专门的工具,无需编程也...
大数据分析流程
这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或者接触过的数据型项目的情况。基本包含了业...
数据相关从业者到底能挣多少钱?
前言 海外,数据分析专业人才已成为最高薪的人群之一。在中国大数据飞速发展的当下,可以预见到的是,中国的数据分析专业人才也将越来越抢手,成为各个企业竞先争抢的优质人才储备。 诸位数据分析爱好者学习数据分...
手把手教你使用R语言的主成分分析对城管事件数据分析
概念性的东西就不说那么多了,这次使用主成分分析主要目的并不是降维,而是分析城管数据中的事件类别之间是否存在关系,当然,城管事件类型有好几百,这里就只选取从去年九月到目前发生量前十的事件类别;如下图,排...
【译文】实现R与Hadoop联合作业的三种方法
为了满足用R语言处理pb量级数据的需求,我们需要把它和Hadoop联合起来使用。本文的目的就是阐述实现二者联合作业的不同技术。 方法一:利用Streaming APIs Hadoop支持一些 Stre...
Integrating R with Apache Hadoop
(This article was first published on DataScience+ , and kindly contributed toR-bloggers) Integrating...
R语言与Hadoop和Hbase的联合使用
1. 环境准备及HBase安装 文字说明部分: 首先环境准备,这里我选择了Linux Ubuntu操作系统12.04的64位版本,大家可以根据自己的使用习惯选择顺手的Linux。 但JDK一定要用Or...
面试时的一些大数据存储问题的解题思路和答案
作者:knight_lovexx 一般采用分治法!,大文件映射成小文件 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1...
技能 | 利用SAS进行数据清洗技术——缺失值查询
数据清洗技术是统计分析之前必做的一步,而且也是非常麻烦的一步,有时甚至花费的时间比统计分析都长。所以没有一定的技巧,这将是个非常烦人的工作。 本篇文章介绍如何利用sas进行缺失值的查询工作。 假定我们...
R可视化—用gglot2做工资的炫酷展示
我们基于美国职业足球大联盟球员的薪水,试用ggplot2做出队员名字对应Club及工资水平的可视化(数据集回复可得)。探索性的展示,我们需要载入plyr和ggplot2包。 1、数据处理 sj <...