Logo 300 406cf2a4135690a879d66987aca1ce97c723a4a6103297b858557a4997423ccf

网络爬虫 项目制

预估8000元
项目类型:
预估工时: 4天
工作方式:定期坐班
开工时间:2016-10-18

需求描述

爬取网站地址:http://qyxy.baic.gov.cn/, 北京市企业信用信息网

功能需求:
1.在此网站上搜索关键字
2.遍历搜索到的公司列表
3.点击进入公司详情,爬取网站上存在的此公司所有的数据信息,并存储到数据库
4.可持续爬取,对爬取速度有要求

难点:
1.搜索时有验证码,需要验证码识别
2.此网站对访问数据包限制严重,需要完全模拟请求
3.此网站有ip限制,每个ip每天可访问的数量有限,超过限制会被封禁24小时,需要大量的代理IP
4.此网站爬取中有GET,POST请求,需要代理IP支持两种请求方式
5.每个公司的详细数据,需要访问服务器多次,才可以爬取完全,需要访问次数很多
6.此网站不稳定,有时网络及其慢,访问不到,有时网站直接挂掉一段时间

需要提供爬虫源代码
需要提供代理IP解决方案
需要提供爬虫系统部署文档,或者提供部署服务与支持
需要保证爬虫持续稳定

已有11人投递
Small 0b566b399c3d3fd806acf5e6678a109c
Small 8a50d6f6857be4550c4cedfa565f7d6c
Small 72da96a1b6cb954861795f87d40bc464
Small ee8135e884e29ec0f1c008d6ca31c733
Small c3c2cb6c642d58e061eeca7c7d0ac9e1
Small c769b33865806126e704eacfc85f0c64
Small a9fc3810f6506b22a997df21f088f4d9
Small b554620ecd5a0971a0d9221f78213cdd
Small 761b23899dd0f1726236d64f2ba4aa72
Small 964d1c99f95c1a450ae2f1961cf3850e
Small 06476488b264ee514114ba88cf51cfda
99bee913a8846f47ae841dccfdbc923c
昵称登录后显示 大约 2 个月前

公司登录后显示

公司地址北京 海淀 苏州街3号,大恒科技大厦南座5层
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍