实现网

一套智能化数据挖掘系统 远程兼职

一般月薪50000元
项目类型:数据挖掘/爬虫
每月工作: 30天
工作方式:全程坐班
python
php
mysql
爬虫
django

职位详情

这是一款智能化的框架,基于python,mysql,web-ui(最好是php)操作,以下内容供功能点的参考,实际要用到的细节会更多。需要开发者有足够的实战经验。
1.支持全网爬取(可设置爬取网站类型,如论坛,新闻站点)支持爬取深度(首页,首页中内页,二级目录页,三级目录页)深度模式(首页为快速,从首页到内页为普通,以此类推10次爬取为慢,30个为超慢)因为爬取深度对内容获取的质量有要求,加上后面的一些功能点会用到
2.可指定爬取目标列表针对这批域名爬取二级域名
3.爬取到的域名最后都可以批量权重查询,这也是一个选项功能,在配置爬虫规则时可以选定是否一边爬一边验证域名权重来丢弃低权重域名入库。其中的权重可以分类百度权重、360权重、sogou权重,以便后面功能使用时选择。
4.爬虫规则可在web自定义添加,其中要高可用性支持大部分爬虫规则的情况,如规则中会用到的判断逻辑都要在web界面实现可控灵活配置规则和保存规则。
5.搜索引擎(百度、360、搜狗)关键字收录域名采集,每个关键字前5页内容,采集后保存在数据库。
6.cms识别,可对系统采集的所有域名进行识别分类,可web界面灵活添加识别规则(验证url-验证内容匹配-验证文件md5),我会提供一些cms类型规则
7.请求器,可以对域名列表批量请求,自定义请求参数和方式(get post)并且可以正则匹配保存请求结果特定字段。请求方式可以时间间隔,每天一次,或者无限循环,线程可控,能够多任务添加,例如每个域名请求参数不同,可以针对性一个域名一个任务同时进行,其中raw信息要可自定义,以及请求规则的保存和新任务可选择。可以判断返回状态,输出内容来匹配结果,如模拟百度蜘蛛去请求域名列表,返回的状态码为302那么就保存此结果的域名输出。可以设定一个目录列表字典(大概1万行)同时对域名列表进行请求判断状态为200的结果路径,或者再与此同时判断内容,匹配的才输出结果。这些任务添加时都可以独立选择规则名(如discuz识别,特别路径文件识别,网站可访问性验证),一个规则分类下可以同时新增多种规则,一个任务运行只需要选择这个规则分类就可实现多类规则同时请求,每个规则添加可以备注内容。请求器规则添加时需要支持字典规则(如年月日、数字0-9、字母a-z等多种字典规则),可参考burpsuite的默认规则,后面我会提供大部分规则
8.因为系统任务量很大,所以要支持分布式多节点异步请求,可采用最简单的添加节点方式,python2.7在新机器执行一条命令即可成为节点。
9.要支持http代理模式,防止被反爬虫和防火墙拦截,要支持大部分云waf识别跳过,或者反查域名真实ip来修改本地hosts继续爬取。
10.域名结果保存的分类,可在任务开始前配置好结果保存在哪个域名分类下。
11.数据的导出,要支持特定字段导出、域名分类的导出、全局内容导出等多种灵活导出方式,整个系统就是属于智能的框架任何功能上都可以灵活操作。
12.特殊爬虫规则的定制,需要详谈

已有3人投递
Small c3c2cb6c642d58e061eeca7c7d0ac9e1
Small 121ced3e8cc715a8056e4a5ff4f0f006
Small 23442fdc30116da55e7a90c0b2f7d1da
2e5566c47d9be6f4b54aaac3c5f4509c
昵称登录后显示 大约 7 年前
公司地址 无需坐班
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍