负责设计和开发高效的网络爬虫程序
选择MySql或MongoDb作为数据存储方案,保障数据结构化管理
参与编写技术文档,记录爬虫开发流程、遇到的问题及解决方案
1.对亚马逊,168等电商数据进行采集
2.抓取并清洗公开数据,存储到mogoDb中
3.负责日志系统的开发和维护
4.将披爬取的数据展示在页面上
5.进行api开发,和前端进行对接
熟练运用Python编程语言,结合Scrapy、Requests、BeautiulSou
p等常用爬虫框架和工具,实现对动态网页、反爬机制较强网站的
数据抓取
深入研究目标网站的结构和反爬策略,通过分析网络源代码、网络
请求、响应头等信息,制定合理的爬取策略,有效规避IP封禁、验
证码识别等常见问题
1.做电商类、工商信息类爬虫程序
2.为公司整合社会工程资源
3.和解决各种反爬方式:诸如(JS逆向,Cookie反爬,Token生成
和各种验证码的破解)
4.数据去重,简单的数据分析,数据入库
5.编写Python脚本实现日常任务