昵称登录后显示

1000/8小时

3年工作经验

拉勾

后端研发工程师

java

python

爬虫

数据挖掘

大数据

被预约次数

被收藏次数

被评价次数

擅长技能

【1】工程能力:
<一>深刻理解:
1、J2EE 编程;
2、爬虫整体设计逻辑与运行原理;
3、搜索引擎工作原理;
<二>熟练使用:
1、SpringMVC，Hibernate，Spring，MyBatis 框架;
2、JSP，JavaScript，HTML， CSS, jQuery ,Bootstrap, Ajax 等技术;
3、常见的设计模式:工厂模式，单例模式，适配器模式等;
4、 SQLServer，MySQL 等关系型数据库;
5、Mongodb，Redis，Memcache 等非关系型数据库;
6、Nginx 反向代理服务器;quartz调度框架;WebMagic爬虫框架;
7、日志分析ELK(Elasticsearch，Logstash， kibana)平台;
8、 weka 智能分析环境;
9、基于神经网络的词向量训练工具(word2vec);
10、 protege(本体构建工具)与 jena(本体构建工具包);
11、Hadoop/Spark、yarn、Hive、Hbase、Mathout 等 Hadoop 生态圈内容;
<三>其他: 了解 Python、c/c++和 shell 语言
【2】理解算法:
1、数据抽取(文本块抽取等算法);
2、特征提取相关算法(词性、依存句法、PMI、TF-IDF、卡方等);
3、分类相关算法(决策树、贝叶斯、人工神经网络、k-近邻、支持向量机等);
4、意见挖掘，包括:文档、句子和特征级别(评价对象抽取，情感分类);
5、deeplearning(深度学习算法)
6、知识图谱建立相关算法 (Bootstrapping、模式识别、序列标注)

项目经验

【1】统一数据中心
参与整体设计，并进行开发 2016.04-今天
主要目的：构建公司内部数据打通融合，构建内部数据仓库，形成端到端的数据生产消费统一体。

【2】基于拉勾大数据构建用户画像及其应用
参与整体设计，并进行开发 2016.10-2017.03
主要目的：基于hadoop+hive+spark+mlib+kylin架构构建集团用户画像，用于广告定向、BI 分析、用户运营、智能营销等场景。

【3】语义云大数据平台( 面向灵玖公司内部)
参与整体设计，并进行开发 2016.06-2016.07
主要目的: 公司内部组件，包括:文档内容抽取，分词(ICTCLAS),关键词抽取，实体抽取，分类，语义计算等组件，进行云服务程序移植开发涉及技术: 1.搭建 Hadoop 大数据平台 2.采用 Hbase 数据存储 3.采用 Hive 进行数据查询 4.采用 yarn 进行资源管理并 5.yarn 环境应用开发 6.WebService 远程服务等

【4】精灵网古文搜索服务 (面向精灵网)
项目的整体设计与功能实现 2016.03-2016.04
本项目是为了解决精灵网关系型数据库搜索速度慢而研发的。本项目功能点: 1.古文契约数据的解析与索引建立(xml，excel); 2.Elasticsearch 进行搜索引擎搭建; 3.Redis 搜索缓存; 4.采用 Thrift 进行 (rpc)接口封装; 项目责任: 本人独自完成项目的整体设计与功能实现

【5】语义智能搜索(面向国家电网子公司英大传媒)
参与整体架构设计，并参与开发工作 2015.08-2016.02
本项目功能点: 1.图书、报纸、百科数据解析; 2.命名名实体(人名、地名等)，关键词，新词，摘要等知识抽取; 3.数据搜索引擎搭建(JZSearch); 4.简易知识问答(模式识别); 5.搜索结果挖掘，包括: 聚类(Kmeans 算法)，相关文章推荐(基于关键词)，相关人物推荐(向量相似度)等; 6.基于搜索 (JZSearch)的报纸数据挖掘与可视化(电力地图，来源分析，话题变迁，专属作者分析等)(echarts 技术); 7.电力本体构建(Bootstrapping 算法构建，jena 解析，protege 汉化工具); 8.语义本体展示 (echarts)等。项目职责: 本人主要负责图书、报纸、百科数据库表结构设计，数据解析，各类知识抽取，搜索引擎搭建，搜索结果挖掘，报纸数据挖掘，并参与简易知识问答，电力语义网的构建与扩展。

【6】点e通(面向石家庄常宏公司网站)
参与整体架构设计，并参与开发工作 2014.09-2015.04
爬虫重写 webmagic 架构，以完全配置配置形式开发(如后期需要新添加网站，只需要在数据库中配合抽取信息，达到了配置扩展效果)，对行业200多网站进行数据定时跟踪爬取，同时搭建日志挖掘系统并对系统日志进行挖掘分析本项目主要功能点: 1.负载均衡(ngnix) 2.网站数据获取(重写 webmagic 开源框架)，分布式 Mongodb 存储; 3.采用布隆过滤器进行去重; 4.文章预分类(贝叶斯分类器) 5.数据搜索引擎搭建 (采用 elasticsearch 进行搜索引擎的搭建); 6.数据推荐(采用基于关键词的推荐算法); 7.日志分析平台(ELK 架构)搭建，并进行日志分析与挖掘(包括:操作系统、浏览器、使用设备、来源地区、响应时间、流量统计、热门网站、热门新闻、热门地点、用户点击、搜索词频等); 8.自动摘要(基于关键词); 9.搜索聚类; 10.搜索报告邮件，定时定向推送(JavaMail); 11.高级搜索排序; 12.数据抽取(基于文
本块算法); 13.报告自动定时推送(开源 quartz 定时框架); 14.数据可视化(echarts)等。项目职责: 主要参与“点 e 通”项目整体架构设计，算法实现，并全程参与数据获取模块、智能搜索模块，摘要模块，报告模块，日志分析模块、电商数据获取与部分展示模块的编码工作。

【7】百度百科正文爬虫
项目负责人 2014.07-2014.07
百度百科数据爬取，爬取汽车领域百度百科内容，爬取过程中进行类别识别 (面向清华实验室) 功能点: 1. 汽车百科内容发现 1. 百科标题，正文等内容抽取 1. 正文标签引用(锚点解析)，形成关系图谱 1. 适应大数据存储环境功能特色: 1. 汽车领域，广度优先领域发现 1. 突破百度 ip 频次限制(采用 ip 代理技术进行突破) 1. neo4j 图型数据库存储引用关系，形成知识引用图谱 1. mongodb 数据存储百科数据，适合大数据存储环境

【8】新浪话题微博信息爬虫(面向清华大学智能技术与系统国家重点实验室)
项目负责人 2014.07-2014.07
采用模拟登陆形式进行微博话题抓取。功能点: 1. 模拟登陆 1. 话题获取工程特色: 1. 拦截 cookie，进行模拟登陆 1. 热门话题发现 1. 话题内容定向获取

【9】新浪用户关系信息爬虫(面向清华大学智能技术与系统国家重点
实验室)
项目负责人 2014.06-2014.06
采用新浪 sdk 进行数据爬取。功能点: 高并发新浪用户关系数据获取工程特色: 1、独立架构爬虫框架 2、自动过期 token 检测，采用轮询机制进行 token 自动替换 3、守护线程进行工程维护

【10】微博信息抓取及其全文检索系统(项目已被北京理工大学大数据搜索与挖掘实验室采用)
项目负责人 2014.03-2014.05
通过新浪官方 API 进行数据爬取，并构建内容搜索引擎。功能点: 1. 高并发爬取新浪微博内容与相关用户信息。 1. 新浪内容搜索引擎，内核采用Lucene。工程特色: 1.独立架构爬虫框架 2.多线程高并发 3. 设计与开发线程池

0条评论雇主评价

暂无评论~

可兼职时间

周六全天

周六半天

周日全天

周日半天

工作日下班后

可兼职地点

海淀

昵称登录后显示

拉勾 后端研发工程师

擅长技能

项目经验

0条评论 雇主评价

拉勾

后端研发工程师

0条评论雇主评价