实现网
约定

昵称登录后显示

400/8小时
3年工作经验

腾云忆想北京分公司
开发工程师

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

1. 熟悉Hadoop体系架构,HDFS读写流程,MapReduce过程,Shuffle机制,Yarn任务调度,熟悉相关调优,能熟练部署配置Hadoop分布式数据集群.
2. 熟悉使用Hive,熟悉使用HQL进行海量数据查询分析,熟悉内部表和外部表的区别,熟悉Hive相关调优手段.
3. 熟悉SparkCore,Spark SQL和Spark Streaming技术框架,能够使用Spark做离线数据和实时数据分析,了解Spark性能调优.
4. 熟悉Flume的组成Source,Channel和Sink,拦截器,选择器,以及监控器Ganglia的使用.
5. 熟悉Kafka架构,熟悉Kafka的分区分配策略,副本同步机制.
6. 熟悉Zookeeper集群搭建,半数选举机制原理.
7. 能够使用Sqoop工具在MySQL等关系型数据库与HDFS,Hive之间进行数据的迁入迁出.
8. 能够使用Azkaban工具进行任务调度,任务定时执行和多任务之间按逻辑顺序调度执行.
9. 能够使用Impala,Kylin工具对数据进行查询处理.
10. 熟练使用Java编程,能够使用基本的Shell脚本进行调度.
11. 熟练使用Maven,git工具完成项目的自动化构建和项目模块化管理.
12. 掌握MySql,Redis数据库,熟练操作SQL,Redis命令.
13. 能够搭建 CDH 集群,利用 ClouderaManager 进行安装部署,同时了解HDP大数据平台,原生数据平台的搭建工作.
14. 熟悉docker,k8s,对高并发服务容器化有大规模的实践经验,熟悉腾讯云TBDS、TMF等腾讯云产品,熟悉华为云HCS、RDS、MRS、DWS等华为云产品,掌握迁移上云6R方法论.

项目经验

项目名称 XXX日志采集项目
软件架构:Nginx,Tomcat,Flume,Kafka,Hadoop
项目描述:随着公司业务不断增长,公司越来越重视对数据的利用,决定搭建高可用,高可靠,分布式的海量日志系统,对用户的行为进行分析,以便运营人员查看数据,并根据数据进行相关业务的调整.
责任描述:
1. 参与讨论集群资源规划,技术选型,数据埋点,数据字段的设计.
2. 负责数据采集平台的搭建,实现业务数据仓库的分层搭建.
3. 参与定义Flume拦截器,将日志分类分发到不同的channel中,最终落盘到不同的目录.
项目技术:
1. Nginx与Tomcat配合使用,为Tomcat集群提供反向代理,负载均衡,动静分离等服务.
2. 使用Flume1.7中TailDirSource组件,实现读取一个目录下多个文件日志,并实现了实时读取记录保存的断点续传功能.
3. 通过自定义Flume拦截器,设置不同的header,对Flume采集的数据按照不同的日志类型进行分流.
4. 对存到HFDS上的数据进行压缩,减少IO的传输.
5. 使用Canal实时监控MySQL中的变动的数据,将变动的数据推送到Kafka,使用Spark将数据推进ES中进行保存.
6. 搭建ES集群,安装第三方分词器,实现关键词查询,方便对数据进行检索.
7. 使用Ganglia监控Flume集群,KafkaMonitor监控Kafka集群.

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

周六全天
周日全天
工作日下班后
周六半天
周日半天

可兼职地点

海淀