项目名称:新房,二手房,租房信息采集爬虫
项目描述:项目主要是安居客,租房网,搜房网等网站的租房信息的爬取并提供给数据分析部门
职责描述:
1. 分析网站、网页、链接的特征挖掘,采集任务的分析及采集方案设计,使用scrapy框架爬取 数据,准备ip代理池和user-agent池应对反爬机制
2. 下载器处理完毕后数据交给管道处理,采用Xpath和正则进行数据的清洗,url交给调度器入队列, 检查指纹,继续发送请求。
3. 采用MongoDB做为本地数据库,将资讯房价按地区分类,存入Mongo中。
4. 此项目是对租房信息的抓取,抓取租房的价格、位置、图片、配置等信息,并做保存,对于爬 取的数据使用jupyter notebook进行简单分析后,交给数据部门。
新房,二手房,租房信息采集爬虫,it桔子网站抓取,全书网,京东,天眼查,腾讯新闻,新浪新闻等网站的爬取