昵称登录后显示

1000/8小时

7年工作经验

深圳市慧业天择投资控股有限公司

大数据开发工程师

spark

flink

java

python

react

被预约次数

被收藏次数

被评价次数

擅长技能

1.熟悉大数据框架相关技术，如 hadoop ，hive ，spark ，sqoop ，hbase ，flume, flink
2.数学基础良好，熟悉常用的聚类，统计方法,学习过机器学习和深度学习相关课程，使用过 pytorch
3.对于 spark 性能调优、数据倾斜有一定的解决经验
4.对于维度建模，数仓分层有个人独特的理解
5.使用过 scrapy 爬虫框架
6.有做过完整的离线数仓架构设计，与实时数仓架构设计
7.对于数据治理，数据湖等较新大数据技术有过研究

项目经验

某保险公司数据治理平台

该项目分为两期，一期是监管报送，将规范化的数据推送到银保监相关的部门。二期是 bi 报表迁移，其中迁移的报表数量高达500+。
在整个项目中我们使用到了离线数仓和实时数仓相关的技术。
1.在数据集成上使用 datax 进行离线数据的同步，将 mysql,oracle 等关系型数据同步到 hive 数仓中，并使用 snappy+org 格式进行存储。对于实时数据的同步，我们基于 ogg+kafka+flink+kudu 数据链路实现了秒级延时的数据同步，同时通过离线与实时同步的配合，确保了数据的准确性，与时效性。
2. 对于数据开发，我们有自己的开发平台，可以满足 sql（mysql,hive,spark,impala ）任务、spark jar,java jar,python 的程序的开发与调试。离线任务主要基于 spark sql 进行开发，实时任务主要基于 impala 进行微批调度计算，也有少部分的数据通过 flink 实时计算。
3. 在数据调度上面基于 azkaban 开发了调度平台，可以满足各类任务的周期调度与数据重跑。
4. 数据质量方面，我们参考 grafina 实现了数据在完整性、一致性、唯一性、有效性、时效性与准确性的数据质量模板，可以满足大部分数据质量的检测。
5. 数据服务，可以基于数仓的表，使用表模式和 sql 模式快速的生成 api 服务，降低 api 开发的工作量。
6. 数据治理方面，我们实现了元数据管理，数据标准，数据生命周期相关的控制。此外也有专门的数据治理从组织架构到规章制度上的落地方案。

0条评论雇主评价

暂无评论~

可兼职时间

周六全天

周日全天

工作日下班后

周六半天

周日半天

可兼职地点

高新

昵称登录后显示

深圳市慧业天择投资控股有限公司 大数据开发工程师

擅长技能

项目经验

0条评论 雇主评价

深圳市慧业天择投资控股有限公司

大数据开发工程师

0条评论雇主评价