-熟练掌握 Hadoop,熟悉 MapReduce 的工作流程和 shuffle 机制可以独立编写 MapReduce 处理数据,拥有 Hadoop 调优的经验,理解yarn 的工作机制Spark(core,sql,streaming)、Flink 等大数据开源框架
-熟练掌握 ETL 工具 kettle 进行数据(清洗,转换,整合),datax/sqoop 转储工具
-熟练掌握调度工具 dolphinscheduler/Taier,根据工作运行逻辑编写 job 任务
-熟练掌握 kylin/impala/clickhouse 可视化分析引擎,简单调参调优
-熟练掌握 SQL,有良好的编码习惯,对分布式有深刻理解
-熟练掌握 mysql/hive/redis/hbase/odps/gbase/kudu 等储存机制,简单调参调优
-熟练掌握 flume 数据采集工具 进行多个数据源的数据采集,转换,加载
-熟练掌握 python 数据爬虫(bs4,xpath)解析,自动化工具selenium,以及scrapy框架
-熟练掌握 sparkStreaming 流批数据开发
-熟练掌握 finereport 报表开发(大屏开发/填报)等开发
-熟练掌握 Prometheus 监控报警框架,通过 Grafana 来进行可视化展示以及指标量监测
-熟练掌握 Linux 开发环境,能够编写 shell 脚本,了解其常用命令行的使用
-掌握 selenium/scrapy 数据爬虫框架
熟练使用 SpringBoot(Cloud) 框架 接口开发
-熟练运用 Git 版本管理工具,深入理解 Java/Scala/Python 编程语言
-熟练运用 ChatGpt 助手辅助工作 提高开发效率
-了解部分 spark,Flink,kafka 源码,了解部分 机器学习算法(K-Means,KNN) ,决策树
项目名称: 无忧系统 一
项目描述: 为企业和开发者提供结构化数据,支持数据分析处理等功能。为公司提供数据的储存和统计,全流程可视化方式帮助企业客户提升效率,降低开发门槛,快速构建 AI 应用。
开 发 框 架 : mysql+kettle+odps+gabse+hive+kylin+datax+solr+dolphinscheduler+sparkSql/hiveSql
项目职责:
1.基于业务的流程,数据仓库采取建立为四层,ODS 数据贴源层,DW 数据汇集层,DWD 数据分 析层,ADS 数据服务层。
2.将mysql 数据通过 kettle 清洗软件,通过转换,作业的操作进行对数据的(去重,字段删 除,新增 列等) 传到到 ODS 层
3.进行数据及业务分析,生成结果(使用 Hive 的 hql 语句进行数据开发)。
4.通过使用HQL 进行相关指标的开发,进行指标的不同角度分析(sql重构等)
5.Kylin 数据分析 dw 层的一个主题(保单表,客户表等)与多个维度(保单类型,支付类型,联系方式, 被保人等),进行表的业务分析
6.进行项目优化,hive,kylin 等组件以及数据倾斜的问题
可兼职时间
可兼职地点
0条评论 雇主评价