数据科学研究全面指南之Python篇

  • A+

从一个Python新手到Python大数据竞赛选手的征程

如果你想成为一名数据科学家,或者也许你已经是一名数据科学家而且想扩充你的工具库。那么你就来到了正确的地方。这篇文章的目的就是给那些用python进行数据分析的新人提供一种深度学习路径。我们会在这篇文章中提供利用Python进行数据分析步骤的全面概述。如果你对这方面已经有所了解,或者你对这里面的内容一无所知,都没问题,你可以随便适应你自己的学习路径,然后告诉我们你是怎么在学习路径中做出这些变化的。

数据科学研究全面指南之Python篇

你也可以查看这种学习路径的mini版本->信息图:学习Python中的数据科学的快速指南。

第0步:热身

在开始这段征程之前,第一个要回答的问题就是:为什么用Python?或者说Python会怎样有用?

观看DataRobot创始人Jeremy2014年在乌克兰Python大会上第一段30分钟演讲,然后你就能知道Python会有怎么样的用处了。

第一步:装配你的机器

既然你已经下定决心了,那是时间来装配你的机器了。最容易进行的办法只要Continuum.io 上下载Anacinda就可以了。下载的Anacinda里面会包含有大部分你需要的东西。选择这种途径的主要缺点就是你将会需要等待Continuum来更新它们的安装包,即使有个更新版本可用于基础库的时候也要这样。如果你是一个初学者,那你就不用关心这些了。

在安装过程中如果有任何问题,可以在这里找到针对不同OS详细的安装指南。

第二步:学习Python语言的基础知识

你应该从了解语言,库以及数据结构的基础知识开始学习。Codecademy上的python教程是开始你的学习历程最后的地方之一。到这门课程结束的时候,你应该能够写一些小脚本,也应该能理解类和对象的概念。

特别地学习:列表,元组,字典,列表推导,字典推导

作业:解决HackerRank上的python教程问题。

可选择的资源:如果交互式编码不是你的编程风格,你也可以参考Google Class上的Python课程。它是一个两天的系列课程,而且覆盖了一些我们今后会讨论的部分内容。

第三步:学习Python中的正则表达式

在数据清理阶段你将会用到这些知识。,特别当你处理文本数据的时候。最好的学习正则表达式的方法是参加Google class课程,并且随手做好笔记。

作业:完成Baby names练习。

如果你仍然需要更多的练习,查看这份教程的文本清理相关内容。你将会挑战涉及到数据噪声的不同步骤。

第四步:学习Python中的库-NumPy,SciPy, Matplotlib and Pandas

从这里开始就好玩了。这是一份对不同库的简单介绍。让我们开始练习一些常规操作吧。

彻底地练习NumPy库教程,特别是其中的数组,这将会为接下来的学习打下很好的基础。

接下来,查看SciPy库教程。了解它的说明和基本知识以及基于你的需要完成剩下的内容。

如果你认为接下来就是Matplotlib教程练习的话,那么你就错了。对于我们需求而言,这份教程太深奥了。相反,我们要查看ipython笔记本直到第68行(例如:知道animation)。

最后,让我们看一下Pandas库。Pandas库给Python赋予了数据框功能。这里也应该是你花时间好好练习的地方。Pandas将会成为中规模数据分析的最有效工具。从一个10分钟简短的介绍开始,来了解Pandas。然后继续学习关于Pandas的详细教程。

你也可以参考利用Pandas探索数据分析和利用数据分析进行数据再加工

其他资源:

如果你需要一本有关Pandas和NumPy库的书, Wes McKinney的“Python for Data Analysis”会适合你的。有很多教程可以作为Pandas记录文件的部分。你可以在这里查看它们。

作业:完成Harvard的CS109课程作业。

第五步:有效的数据可视化

学习CS109课程的讲座。你可以忽视刚开始的2分钟,但是随后的部分非常好,听完讲座以后,完成这份作业。

第六步:学习Scikit-learn和机器学习

现在,我们来到了整个课程的干货部分。Scikit-learn是在python机器学习中最有用的库。这里是关于这个库的简要介绍。学习HavardCS109课程的第10讲到第18讲。你将会了解机器学习,类似于回归、决策树、集成建模等监督学习算法以及类似于聚类的非监督学习算法的一个大概。完成这些学习内容后练习这些单个讲座中的作业。

其他资源:

如果有一本书你必须读的话, 那就是《Programming Collective Intelligence》-一本非常经典但仍然是这领域内最好的书之一。

另外,你也可以查看Yaser Abu-Mostafa的机器学习课程,它是有关机器学习最好的课程之一。如果你需要关于这些技巧更简单明了的解释,你可以选择Andrew Ng的机器学习课程,然后完成关于Python的练习。

Scikit-learn教程

作业:在Kaggle上尝试这种挑战。

第七步:练习,练习和练习

恭喜你,你做到了!

现在在技术技能方面你已经掌握了你需要的。剩下的就是练习,而且要找一个比与众多数据科学家竞争的Kaggle更好的地方。去吧,深入目前在Kaggle平台上运行的其中一个竞赛去大展拳脚。

第八步:深度学习

既然你已经学会大多数机器学习技术,那就尝试一下深度学习吧。有很大可能你已经知道什么深度学习,但如果你仍然需要一份简要的介绍话,点击这里。

我自己本身是一个深度学习新手,所以请有所保留的采纳这些建议。最综合广泛的资源时deeplearning.net. 在那你能找到任何东西—讲座,数据集,挑战难题,教程。为了了解了解神经网络相关基础,你也可以尝试Geoff Hinton的课程。

从Python开始吧,《A Complete Tutorial To Learn Data Science with Python From Scratch》。

后记:以防你需要利用大数据库,试一下Pydoop和PyMongo。他们并非包含在本文中,因为大数据学习路径本身就是一个完整的话题。

来源:数据分析网

翻译:江伟,在读研究生,擅长英语和数学。

中国大数据生态图谱&大数据交易市场专题研究报告
R语言实战(中文完整版)
深入浅出数据分析(中文版)
基于大数据的用户特征分析

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: