昵称登录后显示

600/8小时

2年工作经验

北京健康有益有限公司

爬虫工程师

爬虫

python

数据抓取

被预约次数

被收藏次数

被评价次数

擅长技能

• 基于Linux+Pycharm+Scrapy框架（通常）+Fiddler抓包工具的网络爬虫开发环境。
• 熟练抓取PC端、移动端结构化或非结构化数据。
• 熟练掌握Xpath、Re等数据提取规则。
• 擅长使用selenium+chromedriver进行模拟用户行为来数据抓取。
• 熟练使用多样化方式实现爬虫，比如Scrapy框架、request库和urllib、urllib2等。
• 擅长爬虫架构设计、能够处理进行多个网站同时爬取难题、并发处理提高爬取效率。
• 实现项目部署、监控爬虫进度。
• 有丰富的页面分析、反爬措施的实战经验。
• 具体爬取过多种数据类型，比如图片、视频、新闻、商品、企业信息等类型爬虫。

项目经验

投影时代新闻爬虫•爬虫框架设计和爬取新闻媒体
【作品效果】
• 可以根据要抓取的新闻关键字或者新闻日期进行相关新闻采集；
• 新闻要有层级性，比如查询到“电器”下的新闻时，该新闻下能够
查询到“空调”方面的新闻，“空调”新闻下还能继续查询到“格力”的新闻；
• 通过平台来展示新闻数据，每一页有10篇新闻，并且能够高亮显示该新闻的关键字。
• 以上图片为平台下的数据展示。
【作品实现技术】
• 项目通过关键字进行相关新闻的抓取，其中关键字需要进行url编码；
• 项目主要实现技术为requests模块，从而实现请求、解析、处理、下载等功能；
• 实现增量爬取，能够对新增的新闻资讯或者新增板块进行及时抓取。
• 使用MongoDB进行数据存储，url经过MD5处理作为_id值，进而实现数据去重，对已经在库中的抓取过的新闻不再进行重复抓取；
• 通过接口调用MongoDB的数据，使用requests的POST请求，将数据灌入solr，实现最终数据的存储；
• 搭建简单的网页，展示抓取数据，页面主要演示：层级搜索、结果自动摘要、结果高亮的功能；

图片爬虫•爬虫项目架构设计与抓取医疗健康
【作品效果】
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方，包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后，要实现图片顺序编号入库。
• 要求能够实现关键字抓取，比如：餐桌、餐布、厨房等。
• 以上图片展示为部分抓取的图片成果。
【作品实现技术】
• 使用requests模块，调用get()方法请求网页数据；
• 根据用户输入关键字进行相关图片抓取下载，使用urllib.parse进行url编码，完成关键字编码转换；
• threading模块实现多线程快速抓取；
• 下载模块，如果没有创建过文件夹，则会自动创建文件夹来进行图片储存。

南方Plus移动手机app爬虫•数据爬取与爬虫监控生活服务
【作品效果】
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道
下的新闻资讯进行抓取；
• 频道全部抓取完毕有450万条新闻资讯入库；
• 爬虫灵活性高，能加入新的频道进行数据采集。
• 以上图片展示为数据抓取过程。
【作品实现技术】
• 项目数据量不算小，要避免被封IP；
• 手机端抓取数据，需要手机和Fiddle进行设置，使手机和Fiddle是在同一网段；
• 该项目采用广度优先方法，先抓取全部新闻频道下的url（网址），再对每个频道下具体的新闻进行采集。
• 爬虫维护，实现无论pc端或是手机端都能实时监控爬虫进度。

0条评论雇主评价

暂无评论~

可兼职时间

周六全天

周日全天

工作日下班后

周六半天

周日半天

可兼职地点

远程

昵称登录后显示

北京健康有益有限公司 爬虫工程师

擅长技能

项目经验

0条评论 雇主评价

北京健康有益有限公司

爬虫工程师

0条评论雇主评价