实现网
空落单行雨

昵称登录后显示

1000/8小时
7年工作经验

杭州海康威视
大数据开发工程师

0

被预约次数

4

被收藏次数

0

被评价次数

擅长技能

毕业于一本某高校,个人技能。
熟悉 java、scala,熟悉使用 JUC 并发编程
熟悉 java8、Guava 等常用的 java 工具的使用,来提高日常编码效率
熟悉 JVM、JMM 原理和 GC 垃圾回收原理以及相关优化
熟悉使用 Spark Core、 Spark SQL,对 SparkSQL 内核有一定的了解
熟悉 Spark2.1.x 的源码,熟悉 spark 从任务提交、stage 划分、任务调度、task 提交等的整体运行流 程,这部分整体的看过 Spark2.1. x 部分的代码
熟悉从 RDD 算子、Shuffle、jvm 等层面对日常生产中的 Spark 任务进行优化
熟悉 Spark 数据倾斜问题,能够根据日常生产中的数据倾斜提供可行性方案
熟悉 HBase 的使用,熟悉 Hbase 底层的读写流程,对于 BlockCache 中的 LRU 算法有一定的了解 熟悉 kafka,熟悉 MySQL、redis 的使用
熟悉 Hive 以及 Impala 的基本使用,熟悉 Hive 分区、UDF、UDAF 的使用,熟悉数仓分层建模 熟悉常用的 OLAP 框架,如 Impala、presto
熟悉 SpringBoot 框架的使用,熟悉前后端分离开发流程 熟悉数仓建模,数仓分层,能独立的搭建企业级数据仓库
熟悉使用 atlas 进行数据血缘的分析,能够独立的进行集群监控维护

项目经验

项目一:多数据源融合分析平台
开发环境: IntelliJ IDEA + JDK1.8 + linux + CDH5.6.0
软件架构: hdfs + hive + hbase + kafka + mysql + es + solr + mongo + Akka + SpringBoot + Vue + Antlr
项目描述: 为了减少由于不同的数据源切换带来的数据分析成本,提升数据分析效率以及质量,将 HDFS、 Hive、HBase、Kafka、Mysql、Es、Solr、Mongo 数据源分析进行融合,构建多数据源融合分析平台
技术描述:
1、支持多种 datasource/sink,多数据源混算
2、spark 常驻服务,基于 zookeeper 的引擎自动发现,通过 akka 进行网络通信任务提交 3、负载均衡,多个引擎随机执行
8、支持的文件格式:parquet、csv、orc、json、text、xml
4、采用 spark 的 FAIR 调度,避免资源被大任务独占
5、基于 spark 的动态资源分配,在无任务的情况下不会占用 executor 资源 6、基于 Structured Streaming 实现 SQL 动态添加流 7、支持的数据源:hdfs、hive、hbase、kafka、mysql、es、solr、mongo

项目二 : 人脸大数据融合平台
开发环境: IntelliJ IDEA + JDK1.8 + linux + CDH5.6.0
软件架构: HDFS + Kafka + Hive + SparkSQL + SparkStreaming + Impala + Azkaban + SpringBoot
项目描述: 负责安防人脸大数据抓拍数据的入库、清洗、建模后的数据查询、抓拍统计、比对、同行 人、同乘人、 人车关系图谱等开发工作
技术描述: 1、抓拍机人脸数据在经过硬件一定的抓拍数据处理后会生成半结构化的模块数据会发送到指
定的 kafka topic,我们对该数据进行一定数据清洗后会写入到 hive,hive 会根据不同 的省、市、县等数据量进行数仓设计,数据量较大的省级会按照日进行分区,数据量较小 的市、县等会按照月进行分区。通过 kafka+SparkStreaming 消费入 ODS 层
2、对原始数据会根据数据协议过滤掉脏数据,最终写入到 DWI 层
3、DWS 层会根据各省、市、县级别的名单数据与 DWI 层的抓拍数据进行相应的业务计算,比
如同行人、同城人等的计算
4、最后会在 app 层进行一些汇总逻辑计算,通过 Impala+hive 进行月度的实时查询,提供给
平台人员进行抓拍统计、人员名单详情展示。

项目三: 融合交通大数据疫情管控平台
开发环境:IntelliJ IDEA + JDK1.8 + linux + CDH5.6.0 软件架构:SpringBoot + Hive + Impala + Spark + Kafka + Azkaban
项目描述:针对疫情期间车辆限流、危险车辆监控、轨迹分析、行驶预测等助力公安部打造疫情车辆管 控平台
技术描述:1、SparkStreaming + Kafka 消费车辆抓拍数据入 hive 表
2、通过 Spark 根据车辆历史抓拍数据,历史现场核查情况等将每类车辆划分为高、中、低 三个风险级别
3、对高风险级的车辆进行实时追踪,轨迹预测、信号灯堵控、出行高频点、落脚点分析以 及溯源行驶轨迹追踪
4、对于进出城、首次进城等分析,自动识别与预警高危疫情车辆,并对其出行规律,轨 迹、活跃度、落脚点进行分析研判,支撑车辆的布控核查、现场检查站岗位部署和应急时间的决策指挥

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

远程

被预约

0

被收藏

4

被评价

0

立即预约

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

远程