如何成为一名真正的数据分析师或者数据工程师

发表评论
3,182 阅读

A+

一.入门：高屋建瓴

数据分析的坑很大，一开始走上这条路，就要明确基本的方向，依托于核心的思想，不然只会越走越偏，最后觉得山太高水太深，不了了之。

1.数据与数据分析

数据其实就是对事物特征的定性指称以及量化描述，比如一个人的身份证号，年龄，收入，身高等就构成了一组数据：{id:001,age:45,income:10000,height:176}——如果把很多人的这些数据汇成表，便构成了“ 结构化 ”(也就是比较规整一致)的“ 数据空间 ”。

但是呢，有一些或者大部分的数据都不是规整的，也就是分布比较杂乱或者不是按照我们想要的那样分布的(比如一个网页中的文本数据分布)，称之为“ 非结构化 ”的数据空间。

数据分析的本质是什么?那就是——将这些结构化或者非结构化的数据，映射到指定格式的数据空间里面，然后进行分析—— 数据分析的基础就是数据空间的映射。

这句话说的比较绕，但是却非常深刻，它告诉我们，数据分析的一个基础(在实践中也是最重要)的一件事情就是寻找合适的数据空间映射方案——某种程度上就是所谓的数据清洗。

2.对于一些工具的看法

沿袭上文，工具则可以分为两种，一是基础性的excel，spss，sas等数据分析软件以及许多数据库管理工具，它们主要处理的是结构化的数据，也就是给你把数据弄成了表的规整数据(当然，这些数据很多时候也需要清洗，不过已经不涉及数据空间映射这个问题了);二是编程语言，包括python，R，Java，Ruby等，这些语言工具主要是处理数据空间映射和清洗工作的，其中，比较常用的是python和R，前者由于其可扩充性，已经在大多数情况下优于后者了。

3.学习：从天而降

所谓“从天而降”指的是从一个比较高的地方下降来学习的方法，好比是拿着一张总体的地图去探索数据分析与挖掘的世界。推荐阅读：《数据科学实战》。

其次，请注意一点：python学习，对于没有任何计算机基础的人来说，基本上是开头容易、越往后面越难! (python一开始的类似自然语言的结构很友好，但你到了函数与面向对象的学习的时候，还是必须明确引用变量的变化(也就是数据如何在内存中流动)以及作用域的动态变化等对入门者不友好的问题。)

在这种情况下，《head first python》根本不适合，不要用它学习python!

我的建议是，花时间学习一下计算机的基本原理，然后是C语言，Java等，然后再学python，不然你到后面完全是知其然而不知其所以然!

推荐阅读：《计算机科学概论(第11版》

以及：《疯狂Java讲义》(这本书虽然讲的是java，但对数据在内存中的流转也有讲，可以作为参考，理解程序的运行。)

最后才是：《 Python基础教程(第2版•修订版) 》

然后可以看看入门的统计学教材：《深入浅出统计学》(很快就能看完，我当时半天多一点就看完了。)

以及入门与深入理解数据库原理：《 MySQL必知必会》+《数据库系统概念》

有了技术基础了，再看看《 R语言编程艺术》

另外，入门者不要选择python3.x，选择python2.7吧。为啥?因为很多重要的模块比如pandas还有网上的许多资料现在还是最多支持到2.7的，你选3.X对于入门那是舍近求远。

最后，可以使用《利用Python进行数据分析》将所有知识串接起来，感受pandas以及scipy，numpy中的数据计算是如何体现数据空间映射这个深刻概念的。

二.中阶：理论

中阶主要是理论学习以及一些比较复杂的应用操作。

1.理论基础：书籍

良好的数学基础是进一步学习的支撑条件。

以下是推荐阅读的书目：

1.概率论与数理统计：《概率论与数理统计》，进一步学习概率与统计;

2.高等代数：《高等代数简明教程(上册) 》，“数据空间的映射”的思想就来自于高等代数;

3.最优化：《最优化理论与方法》，参考书，中阶不要细读。

4.数据挖掘：《数据挖掘导论》，偏数学，《数据挖掘》，偏结构化的数据库;

5.信息检索领域入门：《信息检索导论》

6.统计学习理论快速俯瞰：《统计学习方法》

7.实战之于python：《集体智慧编程》+《机器学习实战》

8.实战之于Mahout平台：《 Mahout实战》

2.实战：利用数据库与数据api，实战学习

(1)淘宝上以及很多百度提供的一些数据库： API Store_为开发者提供最全面的API服务等，都可以下载到数据进行处理，有一些经典的研究数据库，主要是一些大学构建的，也可以用来训练模型;

(2).学习写网络爬虫，基于python，爬取文本数据进行分析，其中，文本数据分析可能涉及到中文的自然语言处理，比较麻烦，有一些模块可以直接使用(比如jieba)，如果觉得不理想，可以尝试爬取英文页面。另：写爬虫必须首先理解网页的数据空间，建议阅读：《 Head First HTML与CSS、XHTML(中文版) 》;

(3).苦练清洗数据的基本功——因为大多数数据工程师的主要工作都在于此，并且在清洗的过程中，深刻理解数据空间的映射。另，清洗数据必备技能：正则表达式。建议阅读：《正则表达式必知必会》;

(4). 混合编程与数据可视化：可以尝试以python为主的混合编程(python+R)以及数据可视化，建议阅读《 ggplot2 》