面向对象重要的概念就是类(Class)和实例(Instance),类是抽象的模板,而实例是根据类创建出来的一个个具体的“对象”,每个对象都拥有相同的方法,但各自的数据可能不同。 先回顾下 OOP 的常...
深入对比数据科学工具箱:Python和R语言的C/C++实现
概述 几周前,我有幸在 Scipy 大会上发表了 Civis如何使用Python和R语言的演讲。为什么要在一个Python大会上大谈R呢?这是要挑起一个Python和R语言的一场战争吗?不是的!讨论哪...
一文读懂Hadoop、HBase、Hive、Spark分布式系统架构
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看...
R语言数据分析实战:数据结构(2)
4、数据框 由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R语言中最常处理的数据结构...
R语言数据分析实战:数据结构(1)
一、数据集的概念 数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。表2-1提供了一个假想的病例数据集。 不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation...
数据科学研究全面指南之Python篇
从一个Python新手到Python大数据竞赛选手的征程 如果你想成为一名数据科学家,或者也许你已经是一名数据科学家而且想扩充你的工具库。那么你就来到了正确的地方。这篇文章的目的就是给那些用pytho...
实现R与Hadoop联合作业的三种方法
实现R与Hadoop的联合作业,R就拥有了在分布式文件系统(HDFS)上处理大数据的能力。本文的目的就是阐述实现二者联合作业的不同技术。但同时,这几种方法也各有利弊。 为了满足用R语言处理pb量级数据...
MySQL的常用操作命令整理
缘由:初次接触命令行操作MySQL数据库,使用还不熟练,故整理之,方便日后查阅。 备注: 用户登录MySQL后,对数据库操作的命令基本都以”;” 或 “g”结尾。 一. MySQL服务操作: 启动My...
如何用SPSS探测及检验异常值?
一、采用数据探索过程探测异常值 SPSS菜单实现程序为: 主菜单–>“Analyze”–>“Descriptive Statistics”–>“Explore……”选项–>“S...
R语言实战:R语言介绍
我们分析数据的方式在近年来发生了令人瞩目的变化。随着个人电脑和互联网的出现,可获取的数据量有了非常可观的增长。 商业公司拥有TB级的客户交易数据,政府、学术团体以及私立研究机构同样拥有各类研究课题的大...