1. 本人拥有扎实的Python语言基础,熟悉linux平台、shell编程;
2.掌握网页抓取原理及技术,了解基于session、cookie的登录原理,熟悉基于正则表达式、xpath、css等网页信息抽取技术;
3.熟悉各类反爬虫策略,有丰富的反爬虫实战经验,能够解决封账号、封IP、验证码识别问题;
4.熟悉http、https网络协议,熟悉js逆向,有网页js代码调试及追踪经验
5.熟悉web端以及app端数据抓包以及数据拦截技术
6.熟练掌握常用的爬虫框架,如scrapy、selenium、uiautomator2等;
7.熟悉Elasticsearch,hbase,Redis,ClickHouse,MongoDB等数据库;
8.熟悉Hook技术,反混淆处理;
9.了解frida,unidbg,ida等逆向框架
华秋商城元器件采集(深圳华秋电子有限公司)
项目简介:
一站式元器件采购平台,20万+自营现货,原装正品,为客户提供3000+原厂品牌, 1000万+全球现货代采、BOM报价、替代选型
责任描述:
1.负责对接业务方提供的相应元器件,芯片网站数据采集,入库并在商城展示;
2.负责对接业务与第三方供应商合作提供的相应api对接;
3.负责调整相应元器件价格系数以及汇率实现元器件盈利;
4.负责实时监控爬虫信息以及商城库存变化并实现告警提示
技术要点:
1.利用Tls指纹实时变动解决akamai封禁ip与指纹识别,实现每千万级别元器件入库
2.Chrome devtools断点调试,使用js2py来调用JavaScript代码实现相应网站加密破解
3.使用Redis,rabbitmq构建分布式爬虫,实时推送数据至各个业务端
4.利用MySQL,MongoDB,Elasticsearch实现动态,静态,业务层数据分离
5.利用fiddler以及常见app端抓包工具解决web端无法采集数据爬取
6.使用ClickHouse存储每个供应商元器件库存总数至帆软报表用于数据分析
电子发烧友数据供应(深圳华秋电子有限公司)
项目简介:
为中国电子研发工程师及开发者,提供全面的技术、产业和供应链资讯和在线社区交流服务的平台
技术要点:
1.利用pc端微信抓包工具,实时拦截公众号(普通公众号,授权厂商公众号)最新公众号资讯,动态维护2000+公众号
2.使用Docker Swarm管理爬虫容器并分发至不同服务器构建分布式爬虫
3.钉钉监控爬虫异常警告以及库存使用情况
4.每日爬虫定时统计论坛,文章,问答,产品收录情况帆软报表展示
可兼职时间
可兼职地点
0条评论 雇主评价