1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
2、对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些反爬手段,优化自己的程序
3、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据
4、需要爬取的数据经过分析,考虑到数据量较多,采用scrapy-redis进行爬取,因为该框架实现url和数据去重、持久化、分布式比较方便,同时应用RedisSpider构建分布式爬虫,爬取更快
5、数据提取,对提取中的异常情况充分考虑,完善优化代码,增加代码强壮型
6、考虑网站能否打开和打开时间问题,一般需要加异常判断、超时、retry等减少报错
7、爬取的数据通过redis,实现新提取的数据保存,已爬过的数据更新的断点续爬功能
8、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,
独立完成网站数据爬取,和常见数据处理方式