实现网
浩-74885b9b

昵称登录后显示

500/8小时
3年工作经验

慈铭体检
大数据工程师

1

被预约次数

2

被收藏次数

0

被评价次数

擅长技能

熟悉Spark分布式计算框架和Spark任务的执行流程
熟悉ELK,熟练使用es进行全文索引及聚合计算以及es可视化(head)搭建
掌握spark离线数据分析,商圈标签,地域报表,媒体报表
掌握流式计算spark-streaming,对流式数据在线处理分析以及性能调优
掌握Spark SQL,Spark Core 等技术,对接数据处理、查询、统计
掌握Spark Graphx图计算,构建顶点数据与边关系
熟练使用Flume组件,能够自定义source与kafka对接,解决在windows客户端中采集数据及断点续传问题
熟悉Linux常用命令,了解常用开发环境
熟悉HDFS、YARN、Hive、HDFS等hadoop生态技术的体系结构和运行原理

项目经验

项目名称: 云存储器大数据分析
开发环境: IDEA+maven+jdk+spark
系统架构: Flume + Kafka + ETL + HDFS + Graphx + SparkSQL +Hbase + Redis + SparkStreaming + Zookeeper +ElasticSearch+ MySql
项目描述:
慈铭打造了40多套极具个性化的体检套餐,通过80余家线下体检网络,向客户提供专业健康体检服务,产生了大量的行为数据和体检数据,为了更加精准的数据分析,传统的技术已经无法满足业务的需求,利用大数据生态圈技术,根据不同城市级别的人口、经济等特点和投资者的医院,参加慈铭体检模式,从当地实际出发,依据卫生行政部门的有关规定,因地制宜地、灵活的帮助合作方设计不同的疾病自动诊断和预测,落实“早发现、早诊断、早治疗”暨“预防为主”医学思想。

责任描述 :
用户画像、离线报表、实时报表
1. 使用flume采集数据服务器,实现flume自定义source,并将数据落地到HDFS中,满足业务需求
2. 搭建kafka集群,实现Kafka消息中间件与sparkStreaming的对接工作
3. 开发SparkStreaming代码,对数据进行实时接收分析处理,将分析的结果数据实时存入到redis中,满足实时查询
4. 使用SparkSQL组件和RDD算子,将读取的日志文件转为Parquet文件,进行离线报表分析和用户画像,
5. 将离线报表数据导入MySql,再将数据存入到ElasticSearch,满足实时检索数据
6. 使用SparkSQL结合Spark Graphx图计算解决渠道发来的用户标示不统一问题
利用GeoHash将经纬度转换成二进制的编码,完成经纬度转商圈的实现
使用Spark Graphx连通图组件,进行各渠道的用户身份归一识别
使用logistic回归进行疾病预测,使用协同过滤计算Cosine 相似度进行疾病预测
10.负责spark集群处理的优化,处理线上出现的一些错误信息,让系统处于稳定,高可用状态。

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀

被预约

1

被收藏

2

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀

已通过身份认证