实现网
小A📷

昵称登录后显示

2000/8小时
10年工作经验

京东
大数据高级开发工程师

java
python
web3
人工智能
大模型

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

➢ 熟练掌握Java、SQL、Python语言、编程语言,深刻理解计算机原理,有良好的数据结构和算法基础,扎实的编
程能力。
➢ 熟悉并行计算或者分布式计算原理,熟悉高并发、高稳定性、可线性扩展、海量数据的系统特点和技术方案。
➢ 熟悉教育、电商、政务等业务的实时数据仓库的开发与优化,熟悉数据中台、数据湖、数据仓库的建设,并且参
与业务选型与技术选型。
➢ 熟悉JVM内存结构、类加载机制、垃圾回收机制等,能针对不同场景对java应用进程调优。
➢ 善于沟通,对业务敏感,能快速理解业务背景,具备优秀的技术与业务结合能力。
➢ 熟练掌握Flink组织架构、任务调度、内存管理、状态管理等原理,并能针对不同类型任务进行调优。
➢ 熟练掌握Druid设计原则、架构原理,部署安装,数据导入,并能优化查询性能。
➢ 熟悉HBase组织架构,集群搭建、底层原理,并能针对不同类型任务进行调优。
➢ 熟悉Doris的存储模型、查询引擎、分布式架构、数据处理流程、并能针对不同场景进行调优,并参与过
DorisMeetup。
➢ 熟悉ClickHouse的架构原理、数据存储结构、查询优化,并能针对不同场景进行调优,并参与过clickhouse社
区。
➢ 熟悉数据湖框架Hudi的架构原理和源码,并能针对不同场景进行调优,并写过flink写入hudi的博客,播放量破
5000。
➢ 了解Paimon组织架构,底层原理,并积极参与社区。

项目经验

项目名称:基于Flink的实时电商分析系统
语言: Java、scala
框架:Hadoop、Hbase、Kafka、Flink、Zookeeper
项目描述:监控MySQL业务数据变化,使用flink对业务数据进行实时处理,通过对相关指标的可视化,达到
监控运营状况的目的。
主要职责:
1、负责实时数据的采集、计算框架的设计和搭建;
2、负责对热度分析业务、PV/UV分析业务、用户新鲜度分析业务、频道区域分析业务、浏览器分析,网
络分析等实时性指标进行计算;
3、负责对项目中使用的组件进行合理的性能调优。
项目技术:
1、实时推送用户产生的日志到Kafka中(Java)。
2、从Kafka获取实时消息使用flink进行处理,将处理结果放入HBase中进行保存(Scala)。
3、实时解析MySQL的binlog日志,解析出的信息发送到Kafka(Java),然后同步都HBase中(Scala)
4、将不同磁盘的多个目录配置到Kafka的log.dirs,来提高其性能。
5、开启背压机制来避免流量激增对系统造成的影响。
项目名称:实时指标分析系统
项目架构:MySQL,Canal,Kafka,Redis,SparkStreaming,ElasticSearch,Shell
项目描述:监控MySQL业务数据变化,使用SparkStreaming对业务数据进行实时处理,通过对相关指标的可
视化达到监控运营状况的目的。
主要职责:
1、负责实时数据的采集、计算框架的设计和搭建;
2、负责对活跃用户、日新增VIP、异常VIP用户、GMV、订单数分时趋势等实时性指标进行计算;
3、负责发布实时数据接口,用于数据可视化,为管理层了解产品销售情况提供数据支持;
4、负责对项目中使用的组件进行合理的性能调优。
项目技术:
1、利用Canal监控MySQL的Binlog日志,实时采集数据的变化,转换成JSON格式并发到Kafka对应Topic。
2、SparkStreaming使用Direct的方式连接Kafka,手动维护offset到redis,并利用redis的事务性实现
精准消费一次。
3、采用Redis的Set对每日的活跃设备id进行去重,达到对每日活跃用户的过滤,保证统计日活时一台
活跃设备只记录一条数据。
4、根据是否可能作为查询关键字,设计ES字段是否采用分词和索引。
5、将不同磁盘的多个目录配置到Kafka的log.dirs,来提高其性能。开启背压机制来避免流量激增对系
统造成的影响。
项目名称:酷码凌动数据仓库分析系统
项目架构:Hadoop,Hive,Spark,Sqoop,MySQL,Oozie,Tez
项目描述:项目主要通过对来自Web端和APP端的业务数据和行为数据进行分析,获取有价值指标,从而帮助
运营层调整运营策略,为决策层提供数据报表支持。
主要职责:
1、负责基于Hadoop/Hive的数据仓库和数据集市的设计及搭建,数据的ETL;
2、负责分析数据量和数据类型,确定各层级表的同步策略;
3、负责数据建模分析,选取合适的维度模型;
4、负责数据分析指标体系建设,统计UV、PV、GMV、客单价、转化率、七日留存率、复购率、新增用户
数、新增会员数,TopN等多项指标,为产品改进,推广等提供数据支持;
5、负责Shell脚本的编写,实现各层级表数据的更新;
6、负责对项目中使用的组件进行合理的性能调优。
项目技术:
1、HDFS数据分层,设置One_SSD存储策略,让HDFS更高效。
2、HDFS设置回收站,并保留7天,以防误删数据。
3、使用HDFS Quotas实现团队的安全存储使用管理。
项目名称:酷码凌动用户数据采集系统
项目架构:Flume,Kafka,Hadoop,Hive,Shell
项目描述:采集用户行为数据日志,对数据进行分类后保存到HDFS,为后序数据仓库的搭建和指标体系建设
提供数据支持。
主要职责:
1、负责Hadoop集群的设计、搭建和基准测试;
2、负责数据采集框架的分析、搭建和测试;
3、负责数据的采集、过滤和分类;
4、负责对项目中使用的组件进行合理的性能调优。
项目技术:
1、设计及搭建Hadoop集群,对集群进行测试。
2、采用Flume Taildir Source 实现实时监控及断点续传功能,自定义拦截器对数据进行分类。
3、Flume使用FileChannel,其logDir中配置多个目录对应不同的硬盘,来增大吞吐量。
4、Flume不同的Sink的数据输出到Kafka不同Topic。
5、Kafka消费数据写到HDFS,并将分类后行为数据导入Hive。
6、使用Shell编写启动脚本,实现Flume、Kafka的一键后台启动。
项目名称:北京市工信部信通院疫情大数据项目
项目描述:
本项目使用华为FusionInsight HD解决方案,硬件采用X86机架式服务器,通过建设一个分布式数据处理
系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力;为视频图像综合应用系统等业
务大数据应用提供统一、高效的支撑平台,能够对结构化和非结构化大数据资源进行有效监测、调度和管理,
提供大规模离线数据处理、在线查询、结构化数据与非结构化存储、流计算、分布式计算等服务。 工作职责:
1. 负责整个中台的稳定运行,包括但不限于在server-om上汇总资源,协助国网运维总部收集各种信息。
2. 负责集群日常维护,参数调优,数据倾斜处理,脏页处理等
3.负责处理CDM数据迁移、drs增量数据同步过程中的问题
4. 负责MRS集群资源的统一划分
5. 处理集群日常告警
6. 负责客户数据开发过程中作业链路出现的各种报错。
项目名称:中国科学院空间与技术应用中心大数据项目
项目描述:中科院大数据建设,实现中科院对接航天工作中的对接等工作。 工作职责:
1. 负责HD、gauss集群安装、搭建。
2. 负责集群巡检、巡检问题处理。
3. 负责验收测试,并出具测试报告
4. 处理集群日常告警
项目名称:中国人寿大数据项目
项目描述:
中国人寿股份有限公司北京分公司使用国产数据库替换传统的SQL Server数据库,将SQL Server
中的数据迁移至GaussDB 200数据库中,同时将对应的业务应用逐步迁移至GaussDB 200数据库中,同时将金
融的实时数据上报给国家相关部门。 工作职责:
1.FusionInsight HD和GaussDB 200 解决方案设计。
2.工商投诉数据实时接入方案规划设计和开发支持。
3.指导集成商配置SQL ON Hadoop支持GaussDB 200对接FusionInsight HD平台。
4.对客户进行GaussDB 200平台特性和组件原理培训。
5.对客户和集成商进行GaussDB 200集群开发使用级培训。
6.FusionInsight HD大数据平台开发支持工作。
7.GaussDB 200大数据平台开发支持工作。

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

远程

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

远程