使用python, R进行数据预处理、单变量分析、模型建立、模型评估优化. 熟练操作mongodb,mysql,redis数据库。对数据挖掘算法如:lr、xgboost、knn、gbdt、lda、word2vec等模型熟练掌握并作相应的应用。熟练操作hive, spark等大数据工具。自然语言处理实现文本推荐算法, 文本分类, 情感分析。
celery搭建分布式爬虫, 结合splinter, phantomjs对网页爬取和解析,使用脚本实现自动发布。熟练scrapy框架, xpath, ip代理, 多进程, 模拟登陆。
操作版本控制工具github.使用fabric实现代码的自动化部署.
爬虫相关:
1. 负责搭建分布式爬虫架构和爬取数据存至hive数据仓库.(电商、房产、旅游、视频、微信公众号、微博 ). 爬虫项目github地址:http://github.com/hexiaosong/HuaatSpider
2. splinter将公司门店信息录入系统和支付宝账号关联的自动化脚本实现.
可兼职时间
可兼职地点
0条评论 雇主评价