数据分析从何入手?——六步让你从小白变成高手

  • A+

摘要:很多人对于数据分析敬而远之,认为那是专家做的。通读此文之后,你就可以放下心理包袱。只要掌握了正确的方法,你也能快速成长为数据分析高手。

今天,跟大家一起探讨一下数据分析方法论,希望未来大家在从事数据分析工作的时候,知道该怎么入手。预祝各位成为数据分析的高手。

数据分析从何入手?——六步让你从小白变成高手

数据分析并非只有专家才能做

我们一直在探索大数据的意义。创造价值,来自数据的价值,使得大数据越来越被接受和认可,并且越来越多的企业开始更加重视大数据。

大数据时代,数据的价值是不受限制和无法估量的。对企业来说,大数据可以应用到精准运营,有效管理和全面监控。在大数据时代,数据是一个不会枯竭的资产,有效的利用数据资产进行决策,将是大数据价值的起点。

既然大数据的目的是为了创造价值,那么今天我们就来讨论一下如何创造价值。

大数据的前奏——工具

在深入这个问题之前,我们需要探讨的是大数据的落点——如何去使用这些数据?我们需要一个平台,一个工具,去实现数据可视化。商务智能(BI)就是这样的一个工具,大数据平台搭建的关键点。

商务智能的概念大家都非常熟悉了。有人把商务智能比作为烹饪,需要准备食材、除污、加工、制作之后才能完成;还有人把商务智能比作为就诊,要做到观察、发现疾病,分析、对症下药、观察、治愈和预防。

但是,真正的商务智能工具需要具备交互、洞察和简单易用的特点。这就催生了敏捷型的商务智能平台,他们具有高效、便捷和深度洞察的能力。

大数据治理

有了数据资源、有了平台工具,怎么把平台和工具用起来?有人提问:是不是只有数据分析师才能使用这个工具?想成为数据分析师是不是很困难?

开始着手数据分析并不难,只要掌握了基本的数据治理方法,我们就可以进入数据分析的行列了。结合实际工作,总结出了一套数据分析方法论,让我们在处理数据的时候有据可循。

想做数据分析,我们首先先要了解数据。了解了数据,那要分析了,怎么分析?数据分析的步骤怎么做?知道该怎么分析了,数据重复、缺失、错误、不可用和不一致的时候又该怎么办?数据干净了,知道怎么进行分析,知道怎么处理数据,万事具备,只欠分析了,摩拳擦掌终于要开始了。怎么开始?

这些问题,我们的数据分析方法论里面会一一解答。

数据分析第一步:了解数据

数据分析从何入手?——六步让你从小白变成高手

了解数据,是展开数据分析工作的必要条件。

方法论中,会简单的把数据分成两种:维度和度量。所谓分析,就是维度和度量的组合,以及对比和细分。举个栗子,解释维度和度量。有这么一批数据:“订单ID”、“用户ID”、“地区”、“年龄”、“订单金额”、“订单商品”、“订单时间”。它们可以分成两种:一种是具体的计算用的量化数值叫度量,另一种是描述事物的各种属性的信息叫维度。

有一点需要格外注意,维度和度量是可以转换的。比如要看“年龄”的平均数,这里的“年龄”就是度量,要看19岁用户的订单情况,这里的“年龄”就是维度。对于一个数据项而言,到底它是维度还是度量,是根据用户的需求而定的。像极了量子效应:状态只有需求确定后才会随之确定。

但是维度和度量又是善变的,维度和度量可以组合加工衍生出新的维度或者度量。这个就是对数据的一个基础分类:维度和度量。

数据分析第二步:了解分析

怎么分析?做判断用对比,找原因用细分。下面我们开始做分析了。怎么分析?简单的来说,就是:做判断用对比,找原因用细分。

下面细说一下对比和细分。怎么个对比法呢?横向和纵向。什么叫横向?例如,今年和去年的销售额的对比。什么叫纵向?自己和别人做对比。那么又怎么细分呢?聚焦和关联聚焦。举个大栗子:今年利润下降了,老板很生气,下令查找原因,缉拿“嫌犯”。原因怎么找呢?注意是找原因,不是找理由。

很多人往往不知道如何查找原因,最后给出的都是理由。那么,我们先看一个示例的原因结论是什么——“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”。让我们分析一下这个原因有什么特点。我们会发现,这个原因是由时间、区域、产品这三个维度和销量这一个度量组成的。于是我们可以知道,对于问题原因的查找定位,本质上就是在回答哪些维度下的哪些度量的下降或上升,导致了问题的发生。这就是在做细分。细分的过程我们会不断用到聚焦和关联聚焦。

大家要注意的是细分无止境,细到什么地步才够呢?答案是,到可操作的区间才够。数据分析的方法就是对比和细分。那么,我们要怎么开始对比和细分呢?

数据分析第三步:数据分析的步骤

那么,数据分析的步骤是这样的:确定目标->分解指标->数据模型->制作报告->其他功能。

第一步:确定目标。我们是增加销量,提高用户活跃度,还是提高工作效率,减少成本?我们要达到什么效果?

第二步:分解指标。找找哪些指标才能达到上述的目的?客流量、进店率、下单率、复购率?这些够吗?不够咱们继续加。指标以解决问题为准。

第三步:数据建模。找到完成上述指标所需要的数据,细化字段,如用户名、销量、利润等。这个时候就要用到我们上面讲过的怎么分析了,对比,细分,再对比,再细分,直到满意为止。

第四部,制作报告。根据数据模型,完成数据分析报告。丑媳妇要见公婆了,怎么也得打扮一下嘛。这个时候用什么方式展现呢?柱图看排名,线图看趋势,饼图、环形图看局部占整体比例。还有气泡、词云看集中度,散点看多个实体的分布,组织图看流向,雷达图看多指标综合性... ...

这么做就是为了一目了然地看清数据而服务。放什么内容,就是见仁见智了。但是,其基本原则是:根据业务场景和故事,从维度与指标组合的矩阵中选择。

现在,我们确定了目标,分解出了指标,构建了模型,用合适的图表展示了数据。那么,最后的那个其他功能是做什么的呢?作为一个大数据分析平台,权限要有保障,性能要有保证,集成要多一些,报告要把把关。总的来说就是两个字:管、控!

数据分析第四步:数据治理

了解了数据和怎么分析,现在终于可以开始分析了,突然发现数据出现一堆问题,例如不能用,数据重复、缺失、错误、不可用和不一致。怎么办?就得靠下面的数据治理方法论来整治一下了。

数据分析时,数据治理是必不可少的环节。只有正确的数据,才能指导我们做出正确的决策。大家还记得数据建模时表关联吗?

1)如果数据源中用户ID存在不一致的时候,结果还对吗?

2)如果用户年龄为999,该怎么办?

3)产品类型很多,如苹果、APPLE、IPHON但很乱怎么办?

4)一条记录存在多行,怎么办?

5)关键数据缺失,该怎么办?如地域缺失。

这些问题都在考验我们。怎么办?我们先来说说,数据要处理成什么样才能分析。结构化、规范化和可关联,符合了这三个标准就可以开始分析了。那怎么做到符合这些规则呢?规矩来了。

第一步,约束输入。你永远不知道用户会输入什么?

第二步,规范输出。老板看不同人的报表,同一个“用户流失率”,每张图表中名称、值都不一样?

第三步,统一建设。信息化的发展,业务系统越来越多,但同一个“产品名称”,不同业务系统也不尽相同。

数据分析第五步:指标分析

数据终于干净了,知道了怎么进行分析和治理数据了。万事具备,只欠分析了。怎么开始分析?指标!

搭建数据分析指标模型,一步步细化分析需求。跟着目标,需要哪些指标来监控或分析能达成目标呢?比如利润,相关指标就是收入和成本。当然,这样的指标太粗线条了,包括收入有哪几类,成本有哪几类,都应该考虑进去。

比如,零售行业的销售额可以分解为客流量、进店率、购买率、客单价和复购率等。所以,分解的方式有很多种,需要遵循MECE原则(完全穷举,相互独立)。又比如零售行业的经营、库存计划进度都可以作为一个分析切入点。每个切入点又都有各个阶段的目的,然后依照目的逐级细化指标。

这个是零售行业经营分析的指标:

数据分析从何入手?——六步让你从小白变成高手

这是零售行业库存分析的指标:

数据分析从何入手?——六步让你从小白变成高手

这个零售行业经营计划进度分析的指标:

数据分析从何入手?——六步让你从小白变成高手

以上的种种分析,都是从每个切入的主题,不断细化下去的。

数据分析第六步:报表美化

做好了指标体系模型,终于可以做报告了。

不同的图、表、筛选条件共同定义了我们的数据洞察。他们的组合体现了我们的认知。咱们来看几张报告的样子。图、表、筛选、预警;占比、趋势、对比等还有很多。

报告的样式是我们智慧的展示,做的美一些,肯定会更好。做了不好看,会被说审美有问题的。如何做一个美的冒泡的报告?这里有几个简单的原则。对齐、等距、统一风格主题、增加报告标题、铺满整个屏幕。

数据分析从何入手?——六步让你从小白变成高手

以上是样式上的原则,下面还有内容上的原则:按照业务逻辑组织图表,相关主题的图表放到同一个页面上;将报告划分层次,将汇总性的指标和细节性的指标区分开,分别制作不同的Dashboard,之间用(带参数的)超链接进行关联。

结尾

按照上面的方法,就可以开启我们的数据分析了。数据分析大师不是一蹴而就的,掌握了数据分析方法论,是做数据分析的开始。和大家共勉,一起在这个大数据时代,抓住数据的价值。

意义。

作者:姜晓萌

来源:永洪BI

转载:大数据人

2016年度中国软件开发者白皮书下载(PDF)
机器学习电子书
R语言实战(中文完整版)
R语言神经网络模型银行客户信用评估数据

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: