如何从互联网采集海量数据？租房,二手房,薪酬…

发表评论
3,642 阅读

A+

所属分类：工具箱数据分析数据采集

作者：沙漠君

不少朋友看了沙漠君的文章后，都会问：那几十万条租房，二手房，薪酬，乃至天气数据都是从哪里来的？其实我还没告诉你这些数据在十几分钟内就可以采集到！

一般我会回答，我用专门的工具，无需编程也能快速抓取。之后肯定又会被问，在哪里能下载这个工具呢？

我淡淡的说，我自己写的。。。(这个B装的…我给95分！)

沙漠君最近比较忙乱，说好的一大堆写作任务都还没有完成。

授人以鱼不如授人以渔，我做了一个决定，将这套软件全部开源到GitHub ！

免费使用，开放源代码！从此以后，估计很多做爬虫的工程师要失业了。。。因为我的目标是让普通人也能使用！！！目标有点远大，不过貌似距离不远了（不到一光年吧）。

这篇文章介绍爬虫大概的原理，文末会有程序地址。

什么是爬虫？

互联网是一张大网，采集数据的小程序可以形象地称之为爬虫或者蜘蛛。

爬虫的原理很简单，我们在访问网页时，会点击翻页按钮和超链接，浏览器会帮我们请求所有的资源和图片。所以，你可以设计一个程序，能够模拟人在浏览器上的操作，让网站误认为爬虫是正常访问者，它就会把所需的数据乖乖送回来。

爬虫分为两种，一种像百度（黑）那样什么都抓的搜索引擎爬虫。另一种就是沙漠君开发的，只精确地抓取所需的内容：比如我只要二手房信息，旁边的广告和新闻一律不要。

爬虫这样的名字并不好听，所以我给这套软件起名为Hawk，指代为”鹰”，能够精确，快速地捕捉猎物。基本不需编程，通过图形化拖拽的操作来快速设计爬虫，有点像Photoshop。它能在20分钟内编写大众点评的爬虫（简化版只需3分钟），然后让它运行就好啦

自动将网页导出为Excel

那么，一个页面那么大，爬虫怎么知道我想要什么呢？

人当然可以很容易地看出，上图的红框是二手房信息，但机器不知道。

网页是一种有结构的树，而重要信息所在的节点，往往枝繁叶茂。举个不恰当的比方，一大家子人构成树状族谱，谁最厉害？当然是：

孩子多，最好一生20个
孩子各个都很争气（生的孙子多）
最好每个孩子还都很像（清一色的一米八）

大家就会觉得这一家子太厉害了！

我们对整个树结构进行打分，自然就能找到那个最牛的节点，就是我们要的表格。找到最牛爸爸之后，儿子们虽然相似：个子高，长得帅，两条胳膊两条腿，但这些都是共性，没有信息量，我们关心的是特性。大儿子锥子脸，跟其他人都不一样，那脸蛋就是重要信息；三儿子最有钱——钱也是我们关心的。因此，对比儿子们的不同属性，我们就能知道哪些信息是重要的了。

回到网页采集这个例子，通过一套有趣的算法，给一个网页的地址，软件就会自动地把它转成Excel! （听不懂吧？听不懂正常，不要在意这些细节！总之你知道这是沙漠君设计的就好了）