昵称登录后显示

300/8小时

3年工作经验

凯威科技网络

大数据工程师

hadoop

spark

hbase

flume

kafka

被预约次数

被收藏次数

被评价次数

擅长技能

Mysql
Jdbc创建查询语句，预处理语句，定义存储过程，事务处理并发现象，隔离级别，连接查询处理，嵌套子查询，分组及二次分组

Linux
熟悉centos7基本命令，更改文件类型或权限，熟悉网络连接模式，虚拟网络编辑，光驱挂载，虚拟机增强工具的安装，符号连接（软连接，硬连接），进程查看，用户增删，主机名修改，解析路径名及文件名，nc命令，yum源修改，yum命令，iso文件制作，虚拟机增强工具安装

Hadoop
独立模式，伪分布模式，完全分布式搭建，熟悉主机操控各节点命令脚本和传输脚本，
Hdfs常用操作，hadoop最小块设置及指定副本数，节点的服役和退役，熟悉MR运行原理，部署及运行，自定义分区，处理数据倾斜，以及自定义combine，全排序，二次排序，采样器，组合key(排序对比器以及分组对比器)与mysql的交互（读写），机架感知实现，HA配置

Hive
建库，表，hiveserver2或beeline或jdbc访问Hive，分区表加载，删改查，动态分区，注册使用UDF函数

Zookeeper
观察者模式使用，API访问zk,自动容灾配置

Hbase
Shell基本操作，ＡＰＩ插入查询，ｈａ集成，区域切割移动，预切割，ＴＴＬ，扫描器设置，过滤器API查询，计数器（点击统计），协处理器（存储），rowkey设计，phonix使用，将Hbase数据导入hive

Sqoop
导出mysql数据到hive，导出hive到mysql

Flume
各种Source： exec-spooldir-seq-netcat配置
各种Sink：hdfs-hbase配置
跃点配置

Kafka
与flume集成，使用kafka抽取数据记录到hbase表中

Spark
WordCount实现，job部署，标签生成实现，作业提交流程解析，数据倾斜，standAlone及yarn提交，shuffle过程，内存优化，广播变量传输过程，自定义累加器，将Spark部署成分布式查询引擎，使用thrfitserver，sparkSQL读取写hive,mysql,spark流计算

项目经验

工作项目：大数据后端数据处理平台, Nginx集群会收集用户的行为事件（我们以启动关闭APP为例），将数据发送到 Kafka，
一组交由MR处理进行用户画像，并将结果存入Hbase
一组为flume抽取出来分组，原生数据，存入hdfs备份，
一组周期性创建Hive分区表，再将原生数据导入Hive数据仓库中，以供离线综合统计分析
一组交由SparkStreaming实现用户行为的实时更新

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

湖北

武汉

昵称登录后显示

凯威科技网络 大数据工程师

擅长技能

项目经验

0条评论 雇主评价

凯威科技网络

大数据工程师

0条评论雇主评价