实现网
明-85583259

昵称登录后显示

300/8小时
3年工作经验

凯威科技网络
大数据工程师

hadoop
spark
hbase
flume
kafka

0

被预约次数

2

被收藏次数

0

被评价次数

擅长技能

Mysql
Jdbc创建查询语句,预处理语句,定义存储过程,事务处理并发现象,隔离级别,连接查询处理,嵌套子查询,分组及二次分组

Linux
熟悉centos7基本命令,更改文件类型或权限,熟悉网络连接模式,虚拟网络编辑,光驱挂载,虚拟机增强工具的安装,符号连接(软连接,硬连接),进程查看,用户增删,主机名修改,解析路径名及文件名,nc命令,yum源修改,yum命令,iso文件制作,虚拟机增强工具安装

Hadoop
独立模式,伪分布模式,完全分布式搭建,熟悉主机操控各节点命令脚本和传输脚本,
Hdfs常用操作,hadoop最小块设置及指定副本数,节点的服役和退役,熟悉MR运行原理,部署及运行,自定义分区,处理数据倾斜,以及自定义combine,全排序,二次排序,采样器,组合key(排序对比器以及分组对比器)与mysql的交互(读写),机架感知实现,HA配置

Hive
建库,表,hiveserver2或beeline或jdbc访问Hive,分区表加载,删改查,动态分区,注册使用UDF函数

Zookeeper
观察者模式使用,API访问zk,自动容灾配置

Hbase
Shell基本操作,API插入查询,ha集成,区域切割移动,预切割,TTL,扫描器设置,过滤器API查询,计数器(点击统计),协处理器(存储),rowkey设计,phonix使用,将Hbase数据导入hive

Sqoop
导出mysql数据到hive,导出hive到mysql

Flume
各种Source: exec-spooldir-seq-netcat配置
各种Sink:hdfs-hbase配置
跃点配置

Kafka
与flume集成,使用kafka抽取数据记录到hbase表中

Spark
WordCount实现,job部署,标签生成实现,作业提交流程解析,数据倾斜,standAlone及yarn提交,shuffle过程,内存优化,广播变量传输过程,自定义累加器,将Spark部署成分布式查询引擎,使用thrfitserver,sparkSQL读取写hive,mysql,spark流计算

项目经验

工作项目:大数据后端数据处理平台, Nginx集群会收集用户的行为事件(我们以启动关闭APP为例),将数据发送到 Kafka,
一组交由MR处理进行用户画像,并将结果存入Hbase
一组为flume抽取出来分组,原生数据,存入hdfs备份,
一组周期性创建Hive分区表,再将原生数据导入Hive数据仓库中,以供离线综合统计分析
一组交由SparkStreaming实现用户行为的实时更新

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

湖北
武汉

被预约

0

被收藏

2

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

湖北
武汉

已通过身份认证