实现网
大潘

昵称登录后显示

700/8小时
3年工作经验

杭州坤盛资产管理有限公司
爬虫工程师

Python
JS
数据采集
爬虫
windows 软件

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

熟练掌握python开发,能使用python完成爬虫及web后端开发相关工作;
熟悉linux开发环境及常用命令;
掌握request,Scrapy ,scrapy-redis分布式爬虫等技能;
掌握Selenium和Chrome以及Pyppeteer获取动态数据;
掌握常见的反爬虫机制及应对策略;
熟悉HTML,XML、Json、JavaScript,Ajax等,了解 Restful API;
掌握Xpath、正则表达式等解析工具,能从结构化和非结构化数据中提取目标数据;
熟悉python GUI开发知识,掌握PyQt5相关技术
熟悉http/tcp相关知识,了解线程、进程、协程之间的区别联系;
熟悉Matplotlib基本功能实现图形显示,简单了解Numpy、Pandas;
掌握抓包,了解安卓逆向分析,反编译等技术。
熟悉MVC开发模式,具有Django/Flask使用经验;
熟悉使用Mysql、Redis数据库,了解MogoDB;

项目经验

项目一 :淘宝分布式数据采集系统
项目周期:2019.3 - 2019.6
项目介绍:
本项目主要用于采集淘宝PC端及APP端搜索关键词获取各类排序商品列表及详细数据,是用于给另一个网站项目提供页面搜索功能的后台程序,类似于看店宝网站VIP会员的搜索功能。
技术选型:
1.考虑到后期可能存在的高并发情况,采用scrapy-redis分布式解决,Master端维护cookie池、IP池以及制作请求url添加到请求队列中,slave端负责爬取请求以及解析数据
2.由于需要提供搜索数据的接口,所以使用轻量级的Flask框架提供路由等功能
3.为了降低与网站项目的耦合度,使用前后端分离技术
职责描述:
1.负责项目需求分析,技术栈选取以及整体架构的搭建;
2.负责反爬措施应对策略的研究与实现,以及接口的编写

项目二 :招聘类网站数据采集
项目周期:2018.7 - 2018.9
项目介绍:
本项目主要用于采集招聘平台爬虫相关职位的数据,并使用Flask进行数据的分析与可视化。
遇到问题及解决方案:
1.爬取量较大,采用scrapy-Redis进行爬取,因为该框架实现URL和数据去重、持久化、分布式比较方便,构建RedisSpider分布式爬虫,爬取数据更快
2.使用 Selenium + Chrome模拟登陆获取 cookie信息,携带 cookie问网页内容,采用动态ip代理和随机User-Agent反反爬
3.数据保存在json字符串中,转化成 python字典,提取数据
4.保存数据到 MongoDB数据库和CSV本地文件
5.使用logging模块编写监控程序进行爬虫监控,并根据时间定向输出日志到本地log文件
职责描述:
1.负责分析采集任务的目标网页结构和一些反爬手段,参与方案设计;
2.负责完成数据的抓取、清洗;
3.针对爬取过程当中出现的一些反爬虫策略,想出对应的解决办法。

0条评论 雇主评价

暂无评论~

可兼职时间

周日全天
工作日下班后
周日半天

可兼职地点

海淀

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

周日全天
工作日下班后
周日半天

可兼职地点

海淀