实现网
Harlan-lhl

昵称登录后显示

500/8小时
5年工作经验

北京智保慧众科技有限公司
python爬虫工程师

1

被预约次数

1

被收藏次数

0

被评价次数

擅长技能

熟练使用Scrapy框架,熟悉分布式爬虫,理解网络爬虫原理;
熟练使用HTMl、Xpath、正则表达式、HTTP协议等;
熟练使用Tableau、FineReport可视化工具,制作报表以及商业可视化大屏;
熟练使用MySQL等关系型数据库,运用sql语句对数据库进行增删改查操作;
熟练使用Excel,处理数据,函数、透视表,图表分析等进行数据分析处理;
熟悉使用ETL开发工具Informatica,kettle进行数据抽取,清洗转换;
熟悉使用Django框架,了解Flask框架,掌握RESTful API开发思想;
熟悉PEP8代码规范,具有良好的代码编辑习惯及面对编程思想;
熟悉Oracle、MongoDB、Redis等数据库;
熟悉各大电商网站的反爬手段;

项目经验

项目 1: 国内1688电商网站爬取
◆ 使用技术:Python、Excel、Mysql、Xpath;
◆ 项目概述:candee商城是一款马来西亚的跨境电商App,分析1688跨境专供-海外代发商品数据,爬取所有类目下的所有商品sku*,上线到Candee商城服务器,为海外市场整天一份新的购买渠道。
◆ 工作流程:
1、查看1688官网html代码,分析代码编码方式;
2、使用正则表达式和xpath对代码匹配出所有sku;
3、使用scrapy框架编写整体流程;
4、设置代理池,确保IP的不重复使用(编写sleep睡眠);
5、数据转存成xlsx格式,对数据进行清晰和增加字段;
6、最后把清洗完的数据转成到服务器mysql,达到产品和数据同步;

项目 2:腾讯课堂平台课程分析
◆ 使用技术: Excel、Mysql、Python、Oracle、Tableau、kettle
◆ 项目概述:通过对腾讯课堂平台IT –互联网类别下的课程进行分析,皆在总结出腾讯课程,免费课程与付费课程的现状,概括出教育来源特征,供在线教育平台做对比参考,同时对优化平台的运营模式给出一定的建议。
◆ 工作流程:
1、 利用Python爬虫,在腾讯课堂官网,网易云课堂官网采集数据;
2、 利用Excel对进行采集来的原数据惊醒字段名称,类型处理,去重;
3、 利用Mysql,Oracle对数据分类汇总处理;
4、 利用Tableau从三个方面分析腾讯课堂平台的现状,并于网易云课堂、光环云课堂进行对比,并结合已有的教学背景,对公司运营给出建议;
5、 创建故事,描述每个图标的分析结论;

项目3:淘宝商品异步爬取
◆ 使用技术:Python、Scrapy、MongoDB
◆ 项目概述:ipad数据爬取,用来分析ipad在中国市场的优势,进一步的改善国产品牌的研发方向。
◆ 工作流程:
1、主要用到了Scrapy和Splash的对接;
2、主要配置了三个Downloader Minddleware和一个Spider Minddleware;
3、Scrapy讲请求转发给Splash,Splash再对页面进行渲染加载,然后将渲染结果传递回来;
4、最后用Spider解析,最终把工作数据保存到MongoDB中。

项目4:思锐软件吐槽论坛(论坛访问排行榜)
◆ 使用技术:Python、Redis、HTML、Linux
◆ 项目概述: 公司内部员工对公司的一个吐槽论坛(经过了公司领导的允许),针对公司的一些问题进行吐槽,提出合理的意见。
◆ 工作流程:
1利用Redis作为缓存,利用Redis本身存在的连接池;
2、把所有的帖子放到Redis缓存中去;
3、利用zincrbykey参数自增1的特性对存在点击量的帖子进行排序;
4、勾勒出HTML单独页面在主页右侧功能的展示

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

朝阳
望京SOHO

被预约

1

被收藏

1

被评价

0

立即预约

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

朝阳
望京SOHO

已通过身份认证