R语言抓取链家网数据代码(附数据集下载)

  • A+
所属分类:Python R语言

今天看到有人用Python爬取了链家网成都站的楼盘信息,我尝试用R做了同样的事情,具体代码如下:

  1. library(rvest)
  2. url0 <- 'http://cd.fang.lianjia.com/loupan/'
  3. name=area=price=type=address=status=NULL
  4. for(i in 1:10)
  5. {
  6.   url <- paste(url0,"pg",i,sep = '')
  7.   web <- read_html(url)
  8.   name <- c(name,web %>% html_nodes('div.info-panel') %>% 
  9.               html_nodes('a') %>% html_text())
  10.   address <- c(address,web %>% html_nodes('div.info-panel') %>% 
  11.                  html_nodes('div.where') %>% html_nodes('span.region') %>% 
  12.                  html_text())
  13.   b=web %>% html_nodes('div.info-panel') %>% html_nodes('div.area') 
  14.   are=rep(0,length(b))
  15.   for (i in 1:length(b))
  16.   {
  17.     if (str_length(b[i]) > 60){
  18.      are[i] =  b[i]%>% html_nodes('span') %>% html_text()
  19.     }else{
  20.       are[i] = 0
  21.     }
  22.   }
  23.   area=c(area,ifelse(are=='0','0',unlist(str_extract(are,'[0-9]+~[0-9]+|[0-9]+'))))
  24.   a <- web %>% html_nodes('div.info-panel') %>% html_nodes('div.average')
  25.   price=rep(0,length(a))
  26.   for (i in 1:length(a))
  27.   {
  28.     if (str_length(a[i]) > 100){
  29.       price[i] = a[i]%>% html_nodes('span.num') %>% html_text()
  30.     }else{
  31.       price[i] = 0
  32.     }
  33.   }
  34.   price=c(price,price)
  35.   type <-c(type, web %>% html_nodes('div.info-panel') %>%
  36.              html_nodes('div.type') %>% html_nodes('span.live') %>% html_text())
  37.   status <-c(status, web %>% html_nodes('div.info-panel') %>%
  38.                html_nodes('div.type') %>% html_nodes('span.onsold') %>% html_text())
  39. }
  40. data=data.frame(name,address,area,price=as.numeric(price),type,status)
  41. DT::datatable(data)

部分结果如下

R语言抓取链家网数据代码(附数据集下载)

然后又爬取了北京、上海、深圳、广州等17个城市的新建楼盘,然后进行了分析

#雷达图

R语言抓取链家网数据代码(附数据集下载)

#绘制面积图

R语言抓取链家网数据代码(附数据集下载)
##条形图

R语言抓取链家网数据代码(附数据集下载)
##层次聚类

R语言抓取链家网数据代码(附数据集下载)
##楼盘在哪里(有些坐标可能有误,但总体趋势还行)

R语言抓取链家网数据代码(附数据集下载)

中国大数据生态图谱&大数据交易市场专题研究报告
小额消费信贷用户数据
数学建模教材(包括十大算法、matlab、lingo、spss、exce以及多种实例模型)
2016年度中国软件开发者白皮书下载(PDF)

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: