推荐 | 9个最佳的大数据处理编程语言 Hadoop

推荐 | 9个最佳的大数据处理编程语言

大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所...
阅读全文
R语言多项式回归 R语言

R语言多项式回归

含有x和y这两个变量的线性回归是所有回归分析中最常见的一种;而且,在描述它们关系的时候,也是最有效、最容易假设的一种模型。然而,有些时候,它的实际情况下某些潜在的关系是非常复杂的,不是二元分析所能解决...
阅读全文
天龙八步:8步让你变成数据科学家 工具箱

天龙八步:8步让你变成数据科学家

OK, 这些步骤不是那么简单。但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间。 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。 数据科学家,...
阅读全文
为什么Spark将成为数据科学家的统一平台 Spark

为什么Spark将成为数据科学家的统一平台

数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。 统计科学家使用交互式的统计工具(比如R)...
阅读全文
干货:Hadoop学习资源集合 Hadoop

干货:Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广...
阅读全文
干货分享:数据可视化工具大集合 R语言

干货分享:数据可视化工具大集合

所谓数据可视化是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。 数据可视化技...
阅读全文
【译文】R语言自定义函数搞定异常值 R语言

【译文】R语言自定义函数搞定异常值

统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。 鉴定离群值的方法有很多种,包括基于标准差的方法和基于四分...
阅读全文
【R语言教程】520的礼物♥ R语言

【R语言教程】520的礼物♥

一切都是从一个故事开始的:1650年,斯德哥尔摩街头,一个宁静的午后,笛卡尔邂逅了18岁的瑞典公主克里斯汀。机遇巧合,一段纯粹、美好的爱情悄然萌发。然而,没过多久,他们的恋情传到了国王的耳朵里。国王大...
阅读全文