网络爬虫 远程兼职
一般月薪8000元- 项目类型:
- 每月工作: 4天
- 工作方式:定期坐班
职位详情
爬取网站地址:http://qyxy.baic.gov.cn/, 北京市企业信用信息网
功能需求:
1.在此网站上搜索关键字
2.遍历搜索到的公司列表
3.点击进入公司详情,爬取网站上存在的此公司所有的数据信息,并存储到数据库
4.可持续爬取,对爬取速度有要求
难点:
1.搜索时有验证码,需要验证码识别
2.此网站对访问数据包限制严重,需要完全模拟请求
3.此网站有ip限制,每个ip每天可访问的数量有限,超过限制会被封禁24小时,需要大量的代理IP
4.此网站爬取中有GET,POST请求,需要代理IP支持两种请求方式
5.每个公司的详细数据,需要访问服务器多次,才可以爬取完全,需要访问次数很多
6.此网站不稳定,有时网络及其慢,访问不到,有时网站直接挂掉一段时间
需要提供爬虫源代码
需要提供代理IP解决方案
需要提供爬虫系统部署文档,或者提供部署服务与支持
需要保证爬虫持续稳定