昵称登录后显示

2000/8小时

10年工作经验

京东

大数据高级开发工程师

java

python

web3

人工智能

大模型

被预约次数

被收藏次数

被评价次数

擅长技能

➢ 熟练掌握Java、SQL、Python语言、编程语言，深刻理解计算机原理，有良好的数据结构和算法基础，扎实的编
程能力。
➢ 熟悉并行计算或者分布式计算原理，熟悉高并发、高稳定性、可线性扩展、海量数据的系统特点和技术方案。
➢ 熟悉教育、电商、政务等业务的实时数据仓库的开发与优化，熟悉数据中台、数据湖、数据仓库的建设,并且参
与业务选型与技术选型。
➢ 熟悉JVM内存结构、类加载机制、垃圾回收机制等，能针对不同场景对java应用进程调优。
➢ 善于沟通，对业务敏感，能快速理解业务背景，具备优秀的技术与业务结合能力。
➢ 熟练掌握Flink组织架构、任务调度、内存管理、状态管理等原理，并能针对不同类型任务进行调优。
➢ 熟练掌握Druid设计原则、架构原理，部署安装，数据导入，并能优化查询性能。
➢ 熟悉HBase组织架构，集群搭建、底层原理，并能针对不同类型任务进行调优。
➢ 熟悉Doris的存储模型、查询引擎、分布式架构、数据处理流程、并能针对不同场景进行调优，并参与过
DorisMeetup。
➢ 熟悉ClickHouse的架构原理、数据存储结构、查询优化，并能针对不同场景进行调优，并参与过clickhouse社
区。
➢ 熟悉数据湖框架Hudi的架构原理和源码，并能针对不同场景进行调优，并写过flink写入hudi的博客，播放量破
5000。
➢ 了解Paimon组织架构，底层原理，并积极参与社区。

项目经验

项目名称：基于Flink的实时电商分析系统
语言: Java、scala
框架：Hadoop、Hbase、Kafka、Flink、Zookeeper
项目描述：监控MySQL业务数据变化，使用flink对业务数据进行实时处理，通过对相关指标的可视化，达到
监控运营状况的目的。
主要职责：
1、负责实时数据的采集、计算框架的设计和搭建；
2、负责对热度分析业务、PV/UV分析业务、用户新鲜度分析业务、频道区域分析业务、浏览器分析，网
络分析等实时性指标进行计算；
3、负责对项目中使用的组件进行合理的性能调优。
项目技术：
1、实时推送用户产生的日志到Kafka中(Java)。
2、从Kafka获取实时消息使用flink进行处理,将处理结果放入HBase中进行保存(Scala)。
3、实时解析MySQL的binlog日志，解析出的信息发送到Kafka(Java)，然后同步都HBase中(Scala)
4、将不同磁盘的多个目录配置到Kafka的log.dirs，来提高其性能。
5、开启背压机制来避免流量激增对系统造成的影响。
项目名称：实时指标分析系统
项目架构：MySQL,Canal,Kafka,Redis,SparkStreaming,ElasticSearch,Shell
项目描述：监控MySQL业务数据变化，使用SparkStreaming对业务数据进行实时处理，通过对相关指标的可
视化达到监控运营状况的目的。
主要职责：
1、负责实时数据的采集、计算框架的设计和搭建；
2、负责对活跃用户、日新增VIP、异常VIP用户、GMV、订单数分时趋势等实时性指标进行计算；
3、负责发布实时数据接口，用于数据可视化，为管理层了解产品销售情况提供数据支持；
4、负责对项目中使用的组件进行合理的性能调优。
项目技术：
1、利用Canal监控MySQL的Binlog日志，实时采集数据的变化，转换成JSON格式并发到Kafka对应Topic。
2、SparkStreaming使用Direct的方式连接Kafka，手动维护offset到redis，并利用redis的事务性实现
精准消费一次。
3、采用Redis的Set对每日的活跃设备id进行去重，达到对每日活跃用户的过滤，保证统计日活时一台
活跃设备只记录一条数据。
4、根据是否可能作为查询关键字，设计ES字段是否采用分词和索引。
5、将不同磁盘的多个目录配置到Kafka的log.dirs，来提高其性能。开启背压机制来避免流量激增对系
统造成的影响。
项目名称：酷码凌动数据仓库分析系统
项目架构：Hadoop,Hive,Spark,Sqoop,MySQL,Oozie,Tez
项目描述：项目主要通过对来自Web端和APP端的业务数据和行为数据进行分析，获取有价值指标，从而帮助
运营层调整运营策略，为决策层提供数据报表支持。
主要职责：
1、负责基于Hadoop/Hive的数据仓库和数据集市的设计及搭建，数据的ETL；
2、负责分析数据量和数据类型，确定各层级表的同步策略；
3、负责数据建模分析，选取合适的维度模型；
4、负责数据分析指标体系建设，统计UV、PV、GMV、客单价、转化率、七日留存率、复购率、新增用户
数、新增会员数，TopN等多项指标，为产品改进，推广等提供数据支持；
5、负责Shell脚本的编写，实现各层级表数据的更新；
6、负责对项目中使用的组件进行合理的性能调优。
项目技术：
1、HDFS数据分层，设置One_SSD存储策略，让HDFS更高效。
2、HDFS设置回收站，并保留7天，以防误删数据。
3、使用HDFS Quotas实现团队的安全存储使用管理。
项目名称：酷码凌动用户数据采集系统
项目架构：Flume,Kafka,Hadoop,Hive,Shell
项目描述：采集用户行为数据日志，对数据进行分类后保存到HDFS，为后序数据仓库的搭建和指标体系建设
提供数据支持。
主要职责：
1、负责Hadoop集群的设计、搭建和基准测试；
2、负责数据采集框架的分析、搭建和测试；
3、负责数据的采集、过滤和分类；
4、负责对项目中使用的组件进行合理的性能调优。
项目技术：
1、设计及搭建Hadoop集群，对集群进行测试。
2、采用Flume Taildir Source 实现实时监控及断点续传功能，自定义拦截器对数据进行分类。
3、Flume使用FileChannel，其logDir中配置多个目录对应不同的硬盘，来增大吞吐量。
4、Flume不同的Sink的数据输出到Kafka不同Topic。
5、Kafka消费数据写到HDFS，并将分类后行为数据导入Hive。
6、使用Shell编写启动脚本，实现Flume、Kafka的一键后台启动。
项目名称：北京市工信部信通院疫情大数据项目
项目描述：
本项目使用华为FusionInsight HD解决方案,硬件采用X86机架式服务器，通过建设一个分布式数据处理
系统，对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力；为视频图像综合应用系统等业
务大数据应用提供统一、高效的支撑平台，能够对结构化和非结构化大数据资源进行有效监测、调度和管理，
提供大规模离线数据处理、在线查询、结构化数据与非结构化存储、流计算、分布式计算等服务。工作职责：
1. 负责整个中台的稳定运行，包括但不限于在server-om上汇总资源，协助国网运维总部收集各种信息。
2. 负责集群日常维护，参数调优，数据倾斜处理，脏页处理等
3.负责处理CDM数据迁移、drs增量数据同步过程中的问题
4. 负责MRS集群资源的统一划分
5. 处理集群日常告警
6. 负责客户数据开发过程中作业链路出现的各种报错。
项目名称:中国科学院空间与技术应用中心大数据项目
项目描述：中科院大数据建设，实现中科院对接航天工作中的对接等工作。工作职责：
1. 负责HD、gauss集群安装、搭建。
2. 负责集群巡检、巡检问题处理。
3. 负责验收测试，并出具测试报告
4. 处理集群日常告警
项目名称:中国人寿大数据项目
项目描述：
中国人寿股份有限公司北京分公司使用国产数据库替换传统的SQL Server数据库，将SQL Server
中的数据迁移至GaussDB 200数据库中，同时将对应的业务应用逐步迁移至GaussDB 200数据库中，同时将金
融的实时数据上报给国家相关部门。工作职责：
1．FusionInsight HD和GaussDB 200 解决方案设计。
2．工商投诉数据实时接入方案规划设计和开发支持。
3．指导集成商配置SQL ON Hadoop支持GaussDB 200对接FusionInsight HD平台。
4．对客户进行GaussDB 200平台特性和组件原理培训。
5．对客户和集成商进行GaussDB 200集群开发使用级培训。
6．FusionInsight HD大数据平台开发支持工作。
7．GaussDB 200大数据平台开发支持工作。

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

远程

昵称登录后显示

京东 大数据高级开发工程师

擅长技能

项目经验

0条评论 雇主评价

京东

大数据高级开发工程师

0条评论雇主评价