数据处理,不可不知的常用工具

  • A+

网页、PDF里的数据获取,令人头大,更别提数据清理了。

在大多数情况下,做数据可视化的我们都难以得到最干净整洁全面的“ready to go”的数据,需要我们在网页中去“挖”,再去另外的平台进行“清理”,下面就介绍一些NICAR中被提到的常用工具。

01、网页获取数据-非编程方式

A.  Web Scraper

Web Scraper 是一款用于网页数据索取的谷歌浏览器插件,用户可以自行创建数据抓取计划,命令它索取你需要的数据,最终数据可以以csv类型文件导出。

B. Import.io

Import.io 是一款免费的桌面应用,它可以帮助用户从大量网页中抓取所需数据,它把每个网页都当成一个可以生成API的数据源。

C. HTML表格插件

a). Chrome插件

b). Firefox插件

D. Down Them All

另外一款用于从网页下载文件的火狐浏览器插件,它包含一些比较简单的过滤功能,比如用户可以选择只下载包含名字中包含“county”的xls文件或者zip压缩包(*county*.zip)。

E. WGET

WGET是一个使用命令行的传统而很好用的数据索取方式。假设用户想从一个网站上索取省份信息,每个州都有统一格式的URL,比如http://sitename.com/state/34  和 http://sitename.com/state/36, 用户就将一个包含所有这些url的exl表格存成text文件,这样就可以用wget-ilist.txt来获取所有身份信息。

F. XML奇迹

很多情况下,网页的数据是以xml的形式架构起来的,这个教程可以帮助用户探索网页中潜在的数据结构,搞清楚网页的代码源是如何被组织起来的。

02、获取PDF中的数据

A. 免费软件

a). CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。

数据处理,不可不知的常用工具

缺点:不能免费处理图片,需要订购OCR服务。

b). Tabula 是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。

缺点:Tabula不能做到光学字符识别,它不如下面会列举到的商业程序精确,比如它获取的行列边距不是很准确,需要手动调整。

B. 付费程序:

a). Cogniview和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。

数据处理,不可不知的常用工具

b). ABLE2EXTRACT是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。

缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。

c). ABBY FineReader

d). Adobe Acrobat Pro

e). Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。

03、清理数据- Open Refine

Open Refine是清理数据方面一款强大的工具。比较典型的使用案例是当你有一个人名、公司名格式不统一的数据时,Open Refine就是很好的选择。在NICAR会议中,来自纽约时报的数据库项目编辑Robert Gebeloff和Kaas & Mulvad创始人兼CEO Nils Mulvad对Open Refine使用其自创教程对Open Refine进行了讲解:

教程:

https://github.com/gebelo/nicar2016/blob/master/refine.pdf

辅助数据资料:

https://github.com/gebelo/nicar2016/blob/master/prof.csv

https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx

MySQL必知必会
误差分位数的默示有效估计与\ 自回归时间序列的预测区间
2016年度中国软件开发者白皮书下载(PDF)
中国大数据生态图谱&大数据交易市场专题研究报告

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: