Logo 300
08-杨-0a20a803

昵称登录后显示

1000/8小时
4年工作经验

支付宝
数据分析&算法工程师

3

被预约次数

4

被收藏次数

2

被评价次数

擅长技能

毕业于华中农业大学信息管理与信息系统专业,在校获得国家数学建模竞赛二等奖。毕业后曾就职于支付宝风险管理部门,负责数据建模&数据分析(sql+sas+spss+python),目前在一家公司负责python后台+nlp算法部分。

良好编程&问题解决能力:近2年python爬取数据&后台算法开发经验,熟悉elasticsearch、tornado、request、redis、lxml、supervisor等工具

对于用机器学习算法来解决实际问题抱有很强的热情

项目经验

1、 EAY(年龄段预测)
完成支付宝站内业务、收藏、浏览、旺旺、交易、购物车、品牌属性等数据准备
利用决策树进行建模
2、 EAY(夫妻账号对预测)
  完成支付宝账号对之间发生的行为(代收货、代充值手机、代购买母婴类商品等等)数据准备
 用sas建立logistic回归模型(ks为40%左右) 


3、 提供奇点资讯新闻的相关观点
用到的软件及主要包:scala、python、mongo、tornado、urllib2、requests、textRank、pyltp、akka、spray、jsoup
    1、提供文章的标签
      1.1、文章正文的关键词  (在Python中通过textRank 中 get_keyphrases算法)
      1.2、标题的关键词  (在Python中使用反向匹配变形算法对标题进行分词 )
    2、提供文章的摘要(在python中使用textRank算法的get_key_sentences方法)
    3、提供文章的相关观点(使用scala语言构建融合搜索项目)
    3.1、各大搜索引擎搜索(包含sm、bing、baidu、qihoo、sougou、google和qidian),搜索结果字段包含标题、url、搜索来源、搜索排名、新闻源网站、更新时间、新闻图片url、新闻摘要
    3.2、对搜索结果排重
    3.3、对综合搜索结果进行排序
3.4、对搜索关键词进行优化(剔除日期格式)
2、 机器人问答系统
1、知乎爬取
项目目标:爬取知乎的所有问题及答案
用到的软件及主要python包:python2.7、mysql、redis、beautifulsoup、requests、lxml、rq
功能模块:
    1.1、知乎模拟登陆
    1.2、构建mysql数据库及表格
    1.3、通过话题id爬取知乎所有的问题(问题id、问题标题、该问题关注人数,该问题回答数量、更新问题时间、爬取问题时间、是否爬完该问题下的所有答案)
    1.4、通过rq分布式爬取知乎所有的答案(问题url、问题的标题、问题的描述、问题所属的话题、答案url、回答用户id,回答内容、赞的数量、用户主页url、爬取时间、更新时间)

可兼职时间

自由职业者,时间充裕

可兼职地点

浦东

2条评论 雇主评价

被预约

3

被收藏

4

被评价

2

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

浦东