从央企财会到数据分析师,他都经历了什么?

  • A+

作者:李运超

大家好!我叫李运超,我目前是在中国人寿保险分公司做分析师,我是CDA第四期的学员,也是刚刚从一个数据分析的学习者变成从业人员。

从央企财会到数据分析师,他都经历了什么?

我以前其实是做财务会计的,在座可能有的人对财务会计有些了解,它和数据分析师中间差别很大。大家会好奇,我是为什么要从财务会计到一个数据分析师呢?

跟大家分享一下我自身思维的转变。我以前是在一个央企做财务会计的,当时负责整个项目,包括会计的核算、税务的管理,整个项目下来大概半年多到一年,通过这份工作对自己大学、研究生的知识有一个充分的应用。但是通过工作会发现,在工作中和你自己想象其实是不太一样的,我个人对于我自身的一个定位始,终是要将我所学到的一些知识应用到企业的管理上,能够发挥自身的一些价值。但是在工作中,我发现其实长期看,我的工作会是一个项目一个项目下去,对一个财务人员来说,跟我的性格不太相符。我想转变,想发挥自己更大的作用。

怎么做呢?当时我刚一开始并没有想一步跨越到数据分析师这个职业上来,当时我是想做偏向于财务预算的,但是在不断地了解过程中,发现我原来上学时,对于工具使用和数据分析方面的知识储备不足,后来我找工作的时候都会提出要求懂一些数据库的东西,当时就感觉蒙了,就不知道自己原来差得这么多。

经过几个月的考量,我最后决定用一段时间去系统地学习一下这个东西,做数据分析相关的工作。这样可以让数据的应用发挥一个更大的价值,而不仅仅是对于一些事务性的简单的处理。就这样,我从一个财务人员逐步地走到了数据分析这个行业里来了。

要做数据分析,我们要学习的东西其实还是很多的,包括一些工具、数据库,还有一些财务统计的知识,以及一些算法。

从工具来说,我们首先会应用到的是Excel。我们在后期应用一些专业的工具进行处理的时候,对于数据的格式还是有要求的,还有数据的拆分。我们所应用到的最基础的工具就是Excel,除了可以数据拆分,还能进行数据分析。

当时我做的一个工作就是将数据产品拆分出来,刚开始我想用SAS进行拆分,我的机子比较老,就带不动,后来我发现Excel可以轻松地搞定。Excel有很多函数,可以进行一对一的匹配。另外,Excel有些数据透视表,对分类的汇总,以及后期把数据带入到工具里面是很有用的;数据透视图,可以做可视化展现的方式。如果你对Excel的VBA再熟悉一些的话,处理数据就很方便了。

另外,学完Excel之后,我又学了STATA和SAS。这些软件相对来说比较菜单化,能够做很多东西,包括一些简单的统计分析,求一下最大值、最小值,中位数,还有可以做一些上学学到的分析检验等。但不仅仅停留在这个层次,数据分析会涉及到包括回归、聚类和分类、时间序列等方法。

比如回归,学的就是一个方程,这是最基本的,其实还可以扩展。它是干什么用的呢?就是对于发生额的预测。比如说一条订单记录会有一些变量,包括性别、年龄、收入等等。通过它其实我们就可以列出一个方程来,预测一个未来值,在我们销售和一个发生值相关的时候,就可以定位。可以把客户分成几类,哪些人属于高价值的客户,哪些人属于相对来说一般的。

还有一个与此相关的逻辑回归,看名字很相似,之所以放到一块是因为它最后的展现形式。不同的是逻辑回归是一个事件的发生概率,这个事情发生不发生,他会不会购买,这是我们常会遇到一个问题。通过逻辑回归就可以根据原有数据归纳出结论。

回归和逻辑回归通常来说都是综合结合来用的,比如说我们把预测出来的金额分成十个档,第一是金额最大的,那么在分析的时候还会有一个问题,这就是种购买金额最高的人,他购买的发生概率是什么?这需要做一个横向的匹配,这样的话我们就会归纳出在实际应用中,发生额和发生概率的排序。我们企业资源都是有限的,在实践应用中我们会根据排序截取前50%的比例,或者20%的比例进行资源投入,这样会获得最大的收益。

聚类和分类,这两个东西看起来很相似,都是跟类别有关系,它们的不同在于聚类是一个无监督学习,分类是一个有监督学习

聚类是干吗的?我们其实不知道这里边有几类,弄到一堆这就是聚类。这对一些未知领域的探索很有帮助,我们在聚类的时候都会把它规划成一圈,在聚类之前做一个分析。这样的话可以降低纬度,避免一些纬度灾难

做好了聚类之后下面就可以分类了,比如说可分成三堆,又来了一个东西,看看它跟哪个是一堆的,就分类了。其实我们常用的算法,包括前面提到的逻辑回归,到决策树、神经网络都是可以用来分类的。

还有第三类就是时间序列,炒股的话就会发现股票的价格会随着时间的波动而波动。还有销量,从某种意义上讲时间是有相关性的。

数据并不是直接拿过来就能用。更多的情况下,企业会把数据放在数据库,量大的话还会放在数据仓库里面。我在面试的时候遇到的两个常见的问题,第一个你为什么会做数据分析师,另外一个就是你的数据库应用能力。数据库的接收是不需要掌握的,主要是数据库的查询,数据库里面各种资料的认识是必须要具备的,我们常用的一个整体查询就是各种字段,从哪个表分类一下,分类端再做一个排序,一般都会涉及到多张表。

对于数据库这块还是要多掌握一些知识。常用的数据库都是关系型数据库,如果有能力非关系型数据库还是要多学习一下,还没有工作的同学可以把精力投入一些,找工作数据库不行的话就直接被Pass掉了。

除了数据分析的工具,也懂数据库,在数据分析里边还有一些内在的思想,包括一些传统的统计方法,还有算法。算法很多,因为时间有限,我不打算多讲。逻辑回归、决策树、神经网络都可以学一下,这些算法有一些是常用的和非常用的,有些是针对同一个问题有不同的角度,如果时间有限的话,可以专精于某一类。不管是做回归,还是做分类、聚类,你可以挑一两个算法进行研究,算法研究精了之后对数据分析可以有很深刻的理解

下边一个问题是数据的可视化的问题。不管你是用了回归还是聚类,最后一个问题就是展现,展现给你们的Boss你到底做了什么?不见得要展示你的成果,更多的是对于企业里面的各种信息的生动展示。

我个人用得多的是Excel和Tableau,我们从集团到各个下面的子公司都在用这个东西。我觉得在数据可视化这一块要遵循两点,第一点就是化繁为简。我们每个月报给最高层有一份报告是50多页,当时我看了都头大。最后我们同事之间大家相互协作,把50多页的东西弄成了9页,它的纬度却可以细化到中层子公司。不要再把一堆Excel表、PPT拿出来了,那样就很Low了,你要想到的第一个问题如何将你的大量的工作成果展现在很少的一个界面上。

第二带你就是直观。最简单的,比如在Excel里用数据透视图,做一个柱状图和一个线,反映未来的趋势,或者横向的对比,都是一个直观的展现,你能做到化繁为简、深入浅出,你的可视化是很成功的。

说了这么多,我们最终还是要有一个系统的数据应用。

第一步是获取数据,数据的来源很多,包括Excel表、数据库,还有通过其他的一些网上的抓取,包括爬虫、网络分析等。

第二步是处理数据。在我实际的工作中,包括我与其他同行沟通,数据处理的过程可以占到整个工作任务的将近70%多。为什么呢?数据价值的认知是一个逐步完善的过程,很多企业原先对于数据的认识没那么强,可能就是某个部门,比如企划、风控、运营等部门,会把数据库里面有关的数据拿出来,自己做报告。现在又上升到一个更高的层次,做数据分析、数据可视化的时候,就发现数据乱七八糟,看了之后就头大,就需要通过各种工具,用SAS,Python进行整理,一方面把数据整理成自己需要的形式,整理成一定的字段和纬度,这样才可以做分析。

其实目前我在工作的这一段时间中并没有用到很复杂的算法,应用的主要是三个方面。

第一,我会用Python、Tableau对数据进行处理。我和同事进行了反复的沟通,不断地了解这些高层人员到底想看什么,我按照自身的理解把它展示出来,后来老板说这个东西没有把核心的需求拿出来。

这其实就犯了一个毛病,我在刚一开始的需求分析就不够深入。其实也是可以理解的,因为刚一开始接触工作,对于整个行业也是一个初步的认识,你可能拿捏不好。随着业务的逐步深入,你首先要了解你这个业务整体老板的需求是什么,再去通过数据、分析、展示,这样才能有的放矢。老板其实不太关心你用了什么复杂的方法做了这个东西,他关心的就是我想要展示什么。

上周我还遇到一个问题。从2015年1月份到2016年6月份整体业绩的达成情况,最初是用柱状图展示折现额,老板说这个东西对我来说没用,因为我更关心的是同期之间的对比。我就只能去改了,其实这就反映一个问题,我们要抓住领导所关心的关键的业务需求

第二就是数据共享中心的建设,我司目前的系统有很多,包括财务组织系统、还有AGC、ERP的,数据很分散,整体系统是由IT系统管理。我自身在做Tableau所以可视化也在做,我就找到一些接口,它其实并不完备。从总公司的角度来说,不仅要掌握财务数据,还要掌握运营的数据,前端企划的数据,包括风控的数据等。建设数据共享中心就是要把各个数据做一种整合。

其实这就是一个数据字典的问题,我们原来有200多个指标,好多重复的、口径不同的。做数据分析的时候,如果同一个问题有不同的名称、不同的口径,后期根本就干不了。我在入职之前有一个同事做预算的时候就很头大,最简单的一个业务费用,分解到中心子公司之后,从企划或者其他方面拿过来的口径是不同的,需要再反复各处去了解,调整口径的调整。这是分析人员最怵的问题,很耗费精力。

因此我觉得,在工作中一方面就要加强自己对于需求端的理解,不跑偏,少走弯路。第二,如果公司的数据现状不好,你要发挥利用自己的一些知识和整体地推动公司建设,这个推动过程中不仅对公司的管理有很深入的认识,对于数据分析能力的提高也很有帮助

本文根据李运超在今年9月召开的CDAS2016中国数据分析师行业峰会上的分享整理而成。

作者:李运超

来源:CDA数据分析师

机器学习电子书
MySQL必知必会
中国大数据生态图谱&大数据交易市场专题研究报告
R语言神经网络模型银行客户信用评估数据

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: