实现网
苏-c5ffbe04

昵称登录后显示

1000/8小时
3年工作经验

拉勾
后端研发工程师

java
python
爬虫
数据挖掘
大数据

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

【1】工程能力:
深刻理解:
1、J2EE 编程;
2、爬虫整体设计逻辑与运行原理;
3、搜索引擎工作原 理;
熟练使用:
1、SpringMVC,Hibernate,Spring,MyBatis 框架;
2、JSP,JavaScript,HTML, CSS, jQuery ,Bootstrap, Ajax 等技术;
3、常见的设计模式:工厂模式,单例模式,适配器模式等;
4、 SQLServer,MySQL 等关系型数据库;
5、Mongodb,Redis,Memcache 等非关系型数据库;
6、Nginx 反向代 理服务器;quartz调度框架;WebMagic爬虫框架;
7、日志分析ELK(Elasticsearch,Logstash, kibana)平台;
8、 weka 智能分析环境;
9、基于神经网络的词向量训练工具(word2vec);
10、 protege(本体构建工具)与 jena(本体构建工具包);
11、Hadoop/Spark、yarn、Hive、Hbase、Mathout 等 Hadoop 生态圈内容;
其他: 了解 Python、c/c++和 shell 语言
【2】理解算法:
1、数据抽取(文 本块抽取等算法);
2、特征提取相关算法(词性、依存句法、PMI、TF-IDF、卡方等);
3、分类相关算 法(决策树、贝叶斯、人工神经网络、k-近邻、支持向量机等);
4、意见挖掘,包括:文档、句子和特征 级别(评价对象抽取,情感分类);
5、deeplearning(深度学习算法)
6、知识图谱建立相关算法 (Bootstrapping、模式识别、序列标注)

项目经验

【1】统一数据中心
参与整体设计,并进行开发 2016.04-今天
主要目的:构建公司内部数据打通融合,构建内部数据仓库,形成端到端的数据生产消费统一体。

【2】基于拉勾大数据构建用户画像及其应用
参与整体设计,并进行开发 2016.10-2017.03
主要目的:基于hadoop+hive+spark+mlib+kylin架构构建集团用户画像,用于广告定向、BI 分析、用户运营、智能营销等场景。

【3】语义云大数据平台( 面向灵玖公司内部)
参与整体设计,并进行开发 2016.06-2016.07
主要目的: 公司内部组件,包括:文档内容抽取,分词(ICTCLAS),关键词抽取,实体抽取,分类,语义 计算等组件,进行云服务程序移植开发 涉及技术: 1.搭建 Hadoop 大数据平台 2.采用 Hbase 数据存储 3.采 用 Hive 进行数据查询 4.采用 yarn 进行资源管理并 5.yarn 环境应用开发 6.WebService 远程服务等

【4】精灵网古文搜索服务 (面向精灵网)
项目的整体设计与功能实现 2016.03-2016.04
本项目是为了解决精灵网关系型数据库搜索速度慢而研发的。 本项目功能点: 1.古文契约数据的解析与索 引建立(xml,excel); 2.Elasticsearch 进行搜索引擎搭建; 3.Redis 搜索缓存; 4.采用 Thrift 进行 (rpc)接口封装; 项目责任: 本人独自完成项目的整体设计与功能实现

【5】语义智能搜索(面向 国家电网子公司英大传媒)
参与整体架构设计,并参与开发工作 2015.08-2016.02
本项目功能点: 1.图书、报纸、百科数据解析; 2.命名名实体(人名、地名等),关键词,新词,摘要等 知识抽取; 3.数据搜索引擎搭建(JZSearch); 4.简易知识问答(模式识别); 5.搜索结果挖掘,包括: 聚类(Kmeans 算法),相关文章推荐(基于关键词),相关人物推荐(向量相似度)等; 6.基于搜索 (JZSearch)的报纸数据挖掘与可视化(电力地图,来源分析,话题变迁,专属作者分析等)(echarts 技 术); 7.电力本体构建(Bootstrapping 算法构建,jena 解析,protege 汉化工具); 8.语义本体展示 (echarts)等。 项目职责: 本人主要负责图书、报纸、百科数据库表结构设计,数据解析,各类知识抽 取,搜索引擎搭建,搜索结果挖掘, 报纸数 据挖掘 ,并参 与简 易知识 问答, 电力语 义网的 构建与 扩展。

【6】点e通(面向石家庄常宏公司网站)
参与整体架构设计,并参与开发工作 2014.09-2015.04
爬虫重写 webmagic 架构,以完全配置配置形式开发(如后期需要新添加网站,只需要在数据库中配合抽取 信息,达到了配置扩展效果),对行业200多网站进行数据定时跟踪爬取,同时搭建日志挖掘系统并对系统日 志进行挖掘分析 本项目主要功能点: 1.负载均衡(ngnix) 2.网站数据获取(重写 webmagic 开源框架), 分布式 Mongodb 存储; 3.采用布隆过滤器进行去重; 4.文章预分类(贝叶斯分类器) 5.数据搜索引擎搭建 (采用 elasticsearch 进行搜索引擎的搭建); 6.数据推荐(采用基于关键词的推荐算法); 7.日志分析 平台(ELK 架构)搭建,并进行日志分析与挖掘(包括:操作系统、浏览器、使用设备、来源地区、响应时 间、流量统计、热门网站、热门新闻、热门地点、用户点击、搜索词频等); 8.自动摘要(基于关键词); 9.搜索聚类; 10.搜索报告邮件,定时定向推送(JavaMail); 11.高级搜索排序; 12.数据抽取(基于文
本块算法); 13.报告自动定时推送(开源 quartz 定时框架); 14.数据可视化(echarts)等。 项目职责: 主要参与“点 e 通”项目整体架构设计,算法实现,并全程参与数据获取模块、智能搜索模块,摘要模 块,报告模块,日志分析模块、电商 数据获 取与部 分展示 模块 的编码 工作。

【7】百度百科正文爬虫
项目负责人 2014.07-2014.07
百度百科数据爬取,爬取汽车领域百 度百科 内容, 爬取过 程中 进行类 别识别 (面向 清华实 验室) 功能点: 1. 汽车百科内容发现 1. 百科标题,正文等内容抽取 1. 正文标签引用(锚点解析),形成关系图谱 1. 适 应大数据存储环境 功能特色: 1. 汽车领域,广度优先领域发现 1. 突破百度 ip 频次限制(采用 ip 代理技 术进行突破) 1. neo4j 图型数据库存储引用关系,形成知识引用图谱 1. mongodb 数据存储百科数据,适合 大数据存储环境

【8】新浪话题微博信息爬 虫(面向清华大学智能技术与系统国家重点实验室)
项目负责人 2014.07-2014.07
采用模拟登陆形式进行微博话题抓取。 功能点: 1. 模拟登陆 1. 话题获取 工程特色: 1. 拦截 cookie, 进行模拟登陆 1. 热门话题发现 1. 话题内容定向获取

【9】新浪用户关系信息爬 虫(面向清华大学智能技术与系统国 家重点
实验室)
项目负责人 2014.06-2014.06
采用新浪 sdk 进行数据爬取。 功能点: 高并发新浪用户关系数据获取 工程特色: 1、独立架构爬虫框架 2、自动过期 token 检测,采用轮询机制进行 token 自动替换 3、守护线程进行工程维护

【10】微博信息抓取及其全 文检索系统(项目已被北京理工大学大数据搜索与挖掘实验室采用)
项目负责人 2014.03-2014.05
通过新浪官方 API 进行数据爬取,并构建内容搜索引擎。 功能点: 1. 高并发爬取新浪微博内容与相关用 户信息。 1. 新浪内容搜索引擎,内核采用Lucene。 工程特色: 1.独立架构爬虫框架 2.多线程高并发 3. 设计与开发线程池

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

海淀

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

海淀