1. 有三年python方向的工作经验
2. 熟悉django框架下的web后台业务编程,熟悉mvc框架开发
3. 熟练使用selenium+PhantomJS实施动态HTML抓取
4. 熟悉scrapy分布式框架,熟练使用xpath语法规则
5. 熟悉使用lxml,Beautifulsoup,正则,以及json模块进行数据提取
6. 熟悉python多线程爬虫及其机制,熟练使用python urllib、urllib2、requests等网络模块
飞机票查询
1、分析网站的反爬虫机制
2、抓取json数据进行解析
3、获取机票的信息
4、编写api接口,传入参数后返回对应的数据
5、代码维护
抓取携程价格酒店房间信息
1、伪装浏览器获取源码;刷新页面后选择Headers就可以看到本次访问的头文件信息,里面包含了一些浏览器的技术参数和引荐来源信息。将这些信息直接添加到代码中;
2、通过解析json获取需要的数据,进行提取;
3、通过django对抓取到的数据进行前端的展示,并进行实时更新数据;
数码复印机保密检查系统
1.数码复印机保密检查系统 是一款针对 数码 复印机产品 进行保密检查的工具,主要通过抓取复印机系统的图片、日志、配置项进行ocr识别判断是否存在涉密内容
2.本系统共分为 3个模块:
授权认证模块:通过动态令牌完成产品使用前的身份工作。系统在使用过程中 在线检测模块与离均需通过动态令牌认证登陆。
离线检测模块:通过硬盘接口转换器直与拆卸下来的复印机连接,添加任务形式对复印机的硬盘进行图片提取。
在线检测模块:通过复印机的网络接口进行连,将复印机中留存图片文件以及日志进行提取并且保存到本地
各类期刊网站的抓取
可兼职时间
可兼职地点
0条评论 雇主评价