熟悉TCP/IP、HTTP、HTTPS、WebSocke ,了解TLS/SSL。 熟练掌握HTML和CSS,可以独立编写网页; 熟悉JS, 可以从JS中找出加密算法并分析。 熟练掌握MySQL, MongoDB, 会使用Redis 。 熟练使用scrapy,并结合redis进行分布式部署。 可以自己训练出准确率95%以上的验证码识别模型。
51job职位爬虫:利用scrapy快速抓取职位信息写入MySQL中,并进行可视化分析。 小说抓取: 抓取小说网站,并利用jieba分词对《悟空传》进行了词性分析。 西刺和快代理: 抓取免费代理,在这过程中使用多线程,提高了抓取和验证效率,并使用selenium绕过网站反爬措施。 网易云音乐评论:通过对JS的解析,掌握了面对JS加密时的分析流程和方法,并应用了前面抓取的代理,结合scrapy提高了爬取速度。存储数据时采用MongoDB,学习并掌握了该数据库的基本操作。 斗鱼弹幕抓取: 通过对斗鱼协议的解析和重构,成功抓取所有弹幕。这个过程中加强了对TCP/IP协议以及第三方协议的理解,掌握了socket以及struct模块。 酒仙网商品抓取:整站抓取时遇到CSS反爬,通过抓包和分析JS,成功破解。 知乎: 知乎改版后登录时消息加密,破解难度很大,通过selenium模拟登录后获取cookies,再利用scrapy进行抓取。