昵称登录后显示

700/8小时

3年工作经验

杭州坤盛资产管理有限公司

爬虫工程师

Python

数据采集

爬虫

windows 软件

被预约次数

被收藏次数

被评价次数

擅长技能

熟练掌握python开发，能使用python完成爬虫及web后端开发相关工作；
熟悉linux开发环境及常用命令；
掌握request，Scrapy ，scrapy-redis分布式爬虫等技能；
掌握Selenium和Chrome以及Pyppeteer获取动态数据；
掌握常见的反爬虫机制及应对策略；
熟悉HTML，XML、Json、JavaScript，Ajax等，了解 Restful API；
掌握Xpath、正则表达式等解析工具，能从结构化和非结构化数据中提取目标数据；
熟悉python GUI开发知识，掌握PyQt5相关技术
熟悉http/tcp相关知识，了解线程、进程、协程之间的区别联系；
熟悉Matplotlib基本功能实现图形显示，简单了解Numpy、Pandas；
掌握抓包,了解安卓逆向分析，反编译等技术。
熟悉MVC开发模式，具有Django/Flask使用经验；
熟悉使用Mysql、Redis数据库，了解MogoDB；

项目经验

项目一：淘宝分布式数据采集系统
项目周期：2019.3 - 2019.6
项目介绍：
本项目主要用于采集淘宝PC端及APP端搜索关键词获取各类排序商品列表及详细数据，是用于给另一个网站项目提供页面搜索功能的后台程序，类似于看店宝网站VIP会员的搜索功能。
技术选型：
1.考虑到后期可能存在的高并发情况，采用scrapy-redis分布式解决，Master端维护cookie池、IP池以及制作请求url添加到请求队列中，slave端负责爬取请求以及解析数据
2.由于需要提供搜索数据的接口，所以使用轻量级的Flask框架提供路由等功能
3.为了降低与网站项目的耦合度，使用前后端分离技术
职责描述：
1．负责项目需求分析，技术栈选取以及整体架构的搭建；
2．负责反爬措施应对策略的研究与实现，以及接口的编写

项目二：招聘类网站数据采集
项目周期：2018.7 - 2018.9
项目介绍：
本项目主要用于采集招聘平台爬虫相关职位的数据，并使用Flask进行数据的分析与可视化。
遇到问题及解决方案：
1.爬取量较大，采用scrapy-Redis进行爬取，因为该框架实现URL和数据去重、持久化、分布式比较方便，构建RedisSpider分布式爬虫，爬取数据更快
2.使用 Selenium + Chrome模拟登陆获取 cookie信息,携带 cookie问网页内容,采用动态ip代理和随机User-Agent反反爬
3.数据保存在json字符串中,转化成 python字典,提取数据
4.保存数据到 MongoDB数据库和CSV本地文件
5.使用logging模块编写监控程序进行爬虫监控,并根据时间定向输出日志到本地log文件
职责描述：
1．负责分析采集任务的目标网页结构和一些反爬手段，参与方案设计；
2．负责完成数据的抓取、清洗；
3．针对爬取过程当中出现的一些反爬虫策略，想出对应的解决办法。

0条评论雇主评价

暂无评论~

可兼职时间

周日全天

工作日下班后

周日半天

可兼职地点

海淀

昵称登录后显示

杭州坤盛资产管理有限公司 爬虫工程师

擅长技能

项目经验

0条评论 雇主评价

杭州坤盛资产管理有限公司

爬虫工程师

0条评论雇主评价