实现网
lylaaa

昵称登录后显示

300/8小时
4年工作经验

泰康保险集团
数据开发工程师

0

被预约次数

1

被收藏次数

0

被评价次数

擅长技能

1. 熟练掌握Hadoop/Hive/Kylin/Flink/kafka等大数据技术组件

2. 熟练掌握Linux系统,深度参与大数据平台搭建过程,熟悉Linux系统常用的shell命令和基础Linux系统运行原理,可以编写Shell脚本实现编写运维脚本等需求。
3. 熟悉CDH平台的使用和简单维护,了解CDH平台安装、卸载和升级过程。
4. 熟练掌握Hive组件,精通HQL查询语句,熟悉hive-sql常用的调优方法。
5. 熟悉flink实时数据处理框架,熟悉flink的standalone模式和yarn模式集群的搭建过程,熟悉flink StreamingAPI和Table API。了解flink on yarn部分源码,包括启动流程,进程交互,任务调度以及内存管理。
6. 熟悉sqoop数据同步工具,可以将数据在hive和关系型数据库之间相互同步,并能解决一些常见的使用问题。
7. 熟练掌握 java 基础知识,了解常用的数据结构和算法。
8. 熟悉kafka消息队列,可以熟练应用kafka实时推送和采集数据,熟悉SASL认证的配置和赋权过程。
9. 熟悉在线分析工具kylin(商业版),熟悉模型和索引的构建过程。
10. 熟悉关系型数据库binlog同步工具canal,掌握配置canal同步mysql数据库数据实时推送到kafka的配置方法。
11. 熟悉日志同步工具filebeat,掌握通过filebeat同步本地日志到es的方法。

项目经验

客户集市数据仓库项目
责任描述:为支撑业务团队,解决传统关系型数据仓库的问题,负责利用大数据平台搭建贴源层数据仓库,并指导业务团队。
软件架构:Hadoop,hive,Jenkins,sqoop,DB2
项目描述:基于大数据平台环境,使用sqoop组件,将关系型数据库的数据拉取到大数据平台的hive当中存储并加工。
工作概况:在本项目中主要负责以下几个部分:
1. 环境与框架搭建:根据需求,在当前的大数据平台创建租户并分配空间,安装部署Jenkins用来实现自动任务调度,搭建脚本工程框架,包含入口脚本,数据库信息配置文件,函数调用脚本,以不同任务区分的job文件,等等。
2. 数据采集与存储程序开发:根据需求,将数据通过sqoop从关系型数据库采集到数据仓库的贴源层,并进行简单的聚合计算,形成一个集成不同源数据表的宽表。另外根据当前hive版本无法进行merge合并的问题,开发hive-sql函数实现merge操作。
3. 监控过程开发:监控Jenkins服务正常运行,协助编写简单的Python脚本调用Jenkins的API,将Jenkins的健康情况输出到日志,如果Jenkins服务挂掉则及时重启Jenkins。并于每天同一时间核对数据条数,如有问题及时告警。
4. 自动化任务调度:基于Jenkins和各个任务的依赖关系,配置Jenkins自动化调度过程。
输出详细使用文档:完成搭建环境和数据处理流程的开发工作之后,将开发过程整理成文档以便用于指导业务团队。

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀

被预约

0

被收藏

1

被评价

0

立即预约

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀

已通过身份认证