我们基于美国职业足球大联盟球员的薪水,试用ggplot2做出队员名字对应Club及工资水平的可视化(数据集回复可得)。探索性的展示,我们需要载入plyr和ggplot2包。 1、数据处理 sj <...
金融专业,学matlab和R哪个好?
金融数据应该用R的场景更多,但是matlab也绝对值得学,很简单很容易上手但是真的非常非常强大,andrew在他的机器学习课上讲过一个笑话: “我有一个朋友,他的一个学生赚了很多钱回去拜访他,学生很激...
数据分析师、数据科学家常见的77个面试问题
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问...
访复旦大学郑磊:免费开放政府数据 助推产业发展
免费开放政府数据 助推产业发展 ——访复旦大学数字与移动治理实验室主任、国际关系与公共事务学院副教授郑磊 在履行行政职能的日常工作中,政府会收集到大量的原始数据。而这些原始数据经过加工,将带来巨大...
拒绝加班,远离业务部门5类垃圾需求的正确方式
马上过年了,地铁上人越来越少了,该放假了!但是!有多少同学是因为业务部门提的需求太垃圾,而没假放,边加班边骂娘的! 今天让我们来认真骂骂街,那些害你放假不得的垃圾需求。 垃圾1号:梦里不知身是客,我的...
数据科学家首先应该做的事
文 | Yanir Seroussi 译者 | 董飞 人们总是问我如何有效的成为一名数据科学家。我的经历是先成为一名软件工程师,然后读了数据科学相关的PhD (是在它变成热点之前)。在这篇文章里,基...
实际工作中的数据挖掘流程
数据工作者最长也是有效的一种工作方式是带项目,无论是数据分析还是专项挖掘,项目制能使数据尽量贴近业务并且有效理解业务和数据的各个维度。那么如何建立面向业务落地的数据分析(挖掘)流程? 在做本篇介绍之前...
最流行的4个机器学习数据集
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流...
R语言与Hadoop和Hbase的联合使用
1. 环境准备及HBase安装 文字说明部分: 首先环境准备,这里我选择了Linux Ubuntu操作系统12.04的64位版本,大家可以根据自己的使用习惯选择顺手的Linux。 但JDK一定要用Or...
合格的数据分析师必备的5项技能
大数据时代到来,如何从数据中提取、挖掘对业务发展有价值的、潜在的知识,为决策层的提供有力依据,为产品或服务发展方向起到积极作用,有力推动企业管理的精益化,对于每个企业都意义重大,而这些工作,大多需要数...