实现网
T先生

昵称登录后显示

600/8小时
2年工作经验

北京健康有益有限公司
爬虫工程师

爬虫
python
数据抓取

0

被预约次数

1

被收藏次数

0

被评价次数

擅长技能

• 基于Linux+Pycharm+Scrapy框架(通常)+Fiddler抓包工具的网络爬虫开发环境。
• 熟练抓取PC端、移动端结构化或非结构化数据。
• 熟练掌握Xpath、Re等数据提取规则。
• 擅长使用selenium+chromedriver进行模拟用户行为来数据抓取。
• 熟练使用多样化方式实现爬虫,比如Scrapy框架、request库和urllib、urllib2等。
• 擅长爬虫架构设计、能够处理进行多个网站同时爬取难题、并发处理提高爬取效率。
• 实现项目部署、监控爬虫进度。
• 有丰富的页面分析、反爬措施的实战经验。
• 具体爬取过多种数据类型,比如图片、视频、新闻、商品、企业信息等类型爬虫。

项目经验

投影时代新闻爬虫•爬虫框架设计和爬取 新闻媒体
【作品效果】
• 可以根据要抓取的新闻关键字或者新闻日期进行相关新闻采集;
• 新闻要有层级性,比如查询到“电器”下的新闻时,该新闻下能够
查询到“空调”方面的新闻,“空调”新闻下还能继续查询到“格力”的新闻;
• 通过平台来展示新闻数据,每一页有10篇新闻,并且能够高亮显示该新闻的关键字。
• 以上图片为平台下的数据展示。
【作品实现技术】
• 项目通过关键字进行相关新闻的抓取,其中关键字需要进行url编码;
• 项目主要实现技术为requests模块,从而实现请求、解析、处理、下载等功能;
• 实现增量爬取,能够对新增的新闻资讯或者新增板块进行及时抓取。
• 使用MongoDB进行数据存储,url经过MD5处理作为_id值,进而实现数据去重,对已经在库中的抓取过的新闻不再进行重复抓取;
• 通过接口调用MongoDB的数据,使用requests的POST请求,将数据灌入solr,实现最终数据的存储;
• 搭建简单的网页,展示抓取数据,页面主要演示:层级搜索、结果自动摘要、结果高亮的功能;

图片爬虫•爬虫项目架构设计与抓取 医疗健康
【作品效果】
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方,包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后,要实现图片顺序编号入库。
• 要求能够实现关键字抓取,比如:餐桌、餐布、厨房等。
• 以上图片展示为部分抓取的图片成果。
【作品实现技术】
• 使用requests模块,调用get()方法请求网页数据;
• 根据用户输入关键字进行相关图片抓取下载,使用urllib.parse进行url编码,完成关键字编码转换;
• threading模块实现多线程快速抓取;
• 下载模块,如果没有创建过文件夹,则会自动创建文件夹来进行图片储存。

南方Plus移动手机app爬虫•数据爬取与爬虫监控 生活服务
【作品效果】
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道
下的新闻资讯进行抓取;
• 频道全部抓取完毕有450万条新闻资讯入库;
• 爬虫灵活性高,能加入新的频道进行数据采集。
• 以上图片展示为数据抓取过程。
【作品实现技术】
• 项目数据量不算小,要避免被封IP;
• 手机端抓取数据,需要手机和Fiddle进行设置,使手机和Fiddle是在同一网段;
• 该项目采用广度优先方法,先抓取全部新闻频道下的url(网址),再对每个频道下具体的新闻进行采集。
• 爬虫维护,实现无论pc端或是手机端都能实时监控爬虫进度。

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

远程

被预约

0

被收藏

1

被评价

0

立即预约

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

远程

已通过身份认证