昵称登录后显示

1000/8小时

9年工作经验

阿里巴巴

资深工程师

被预约次数

被收藏次数

被评价次数

擅长技能

 熟悉Scala函数式编程思想和面向对象结合的语言；熟悉Akka分布式消息通信系统；Java基础知识良好以及多线程编程模型；了解JVM垃圾收集机制、堆外内存以及能根据Java性能监控工具定位线上问题；
 理解Yarn资源管理框架原理，熟悉Spark1.6.3版本内核、Streaming和机器学习源代码，了解Spark SQL、Spark GraphX、Spark ML三个子框架以及 DataSet、DataFrame、tungsten、catalyst等相关技术的原理，了解Spark2.X版本新提出的Structured String能够解决的问题；能够根据实际业务完成基于Spark生态系统设计实时处理和批处理的技术架构设计的功能，并进行性能优化以及业务开发工作；
 理解Hadoop中的HDFS与MapReduce两个主从分布式架构的运行原理与机制，了解Hive数据仓库的源代码并能够对其进行优化，例如，性能调优、数据倾斜等问题，熟悉HBase数据模型的设计、性能优化以及相关的JAVA API；熟悉Zookeeper实现配置管理、服务高可用、实现分布式锁功能等功能，了解 Flume日志采集工具等；
 熟悉Kafka基于磁盘与内存映射的分布式消息队列的源代码以及使用方式；了解Netty高性能通信框架源代码以及架构模型；了解Redis分布式数据库内部的数据结构，seesion共享以及Key的设计规则；了解mongoDB文档数据库；
 数据仓库理论了解比较透彻，熟悉KimBall多维建模理论；
 熟悉Flink实时计算框架、Druid实时预计算引擎和Kylink多维OLAP引擎，以及前端展示superset开源工具；
 了解rabbitMQ消息中间件并能实现队列的高可用和负载均衡的功能，了解阿里RocketMQ实现分布式事物补偿功能；了解Docker、Kebernate、CloudStack、OpenStack等开源的虚拟化技术；
 熟悉linux操作系统，擅长编写的Shell脚本、Python脚本；了解linux集群相关技术，例如负载均衡(Linux Virtual Server)、高可用（HA）；
 数据库：(1).MYSQL数据库，SQL语句优化、分库分表、水平拆分与垂直拆分等； (2).Oracle数据库，熟悉SQL语言与PL/SQL过程语言，对Oracle数据库管理有深入研究，根据SQL执行计划进行数据库优化；BBED对数据块的修改；表分区、全局索引与局部索引；高级优化技术：物化视图、结果缓存、行预取功能；(3). 了解MongoDB集群数据库涉及到的复制集以及分片等技术；
 熟悉Spring框架、SpringMVC框架源代码，掌握 Jsp、Servlet、Html、JavaScript(jQuery)、Ajax、easyUI等技术，了解Mybatis、Hibernate 、SpringBoot、SpringCloud等常用框架使用方法；了解IOS，Android等移动端app开发；
 熟悉Ngnix负载均衡、参数配置与性能优化，例如，长连接等；了解tomcat服务器源代码以及参数优化；
 数学和计算机理论基础知识扎实，深刻理解数据结构中的算法，掌握常用算法分析实际问题的思路；理解网络编程MVC架构以及常用的23种设计模式，了解基于SOA实现的Dubbo服务框架来实现Web高并发访问的技术原理；

项目经验

2018.03-2020.07 广州汇量科技信息有限公司资深工程师(离线数据处理负责人)
参与项目：对广告用户点击量指标进行多维度建模
 编写数仓优化文档(包括命名和编码规范等)以及每个层主要工作和注意事项，根据数据特征从不同角度划分维表:1)从数据量角度分为大维表和小维表，2)从字段变化速度分为缓慢变化维和快速变化维；结合不同维度表自身特征有针对性的给出技术解决方案，最终设计出结构清晰的多维数据模型；
 由于维度表已经存储两百多天的快照，开发MapReduce程序来处理维度表的初始化数据；开发周期性运行SCD2拉链表的处理逻辑；
 达到的目标：1)降低数据存储成本，对维表表做拉链、数据压缩等方法；2)支持更多查询类型，从事实数据中抽取出维度特征的数据等方法；3)通过设计合理的表存储结构，使得数据查询更快，SQL运行更高效；4)保证数据分析过程的数据质量；
 详情参见博客https://blog.csdn.net/andyliuzhii/article/details/79925781

参与项目：GA项目改造
 出于成本考虑，由原来Redshift集群迁移到EMR集群，开发EMR集群启动并执行预先定义的Step逻辑；处理数量级在1T，2亿多条数据；
 遇到的问题：1）集群节点竞价失败导致集群不稳定；2）处理逻辑比较复杂对业务逻辑进行重写；3）输入的小文件过多导致作业执行失败。

参与项目：DMP数据管理平台
 该平台主要实现用户画像数据抽取，包括手机安装包、年龄、性别、兴趣标签等数据，数据加工后提供给算法使用；
 业务线包括dsp/adn/ga/3s，其中dsp这个业务线每天用户流量数据20T多，adn业务数据量6T，涉及到千亿级流量数据；
 设计电商在营销重定向项目、DMP实时服务规划需求等；
 作业运行在AWS集群上，涉及到技术Spark/Hadoop/Azkaban/S3文件系统等技术。
参与项目：实时数仓
 分析用户流量日志计算出PV/UV，漏斗转化分析每天请求、展示、点击、安装的用户数量；
 从MySQL数据库拉取订单，分析不同国家订单周环比；
 涉及到技术Flink/Kafka/canal/driud/superset/hbase等技术。

2017.06-2018.02 北京基调网络有限公司架构师
参与项目：(一).用户活跃度实时统计分析
 基于Spark大数据计算框架计算用户活跃度，每隔一分钟计算最近一个小时的用户数量，搭建Hadoop和Spark大数据存储与计算平台，优化streamming作业的运行性能；

(二).异常检测项目
 异常检测项目：基于时间序列的异常检测，例如，错误率、平均响应时间、内存使用率和CPU使用率等指标，主要涉及到Spark Streaming/Flink、kafka、opentsdb、redis、HBase与基于时间序列HotWinters算法等技术。
 详情参加微博 http://blog.csdn.net/andyliuzhii/article/details/ 79019800

2015.12-2017.05 高德信息技术有限公司资深研发工程师(P6+)
参与项目：地图服务日志分析，POI日志分析
 项目1：大数据基础平台建设，根据实际业务需求设计离线数据分析与实时数据分析的技术架构以及实际的业务开发工作
 负责工作: 1、基于大数据调度系统的设计、开发与上线，该系统采用quartz进行作业的定时调度，图像化界面进行业务开发； 2、根据离线数据把业务分为手机矢量数据、栅格图、动态渲染、静态图、手机图片存储、三维用户与手机推送等场景，通过TT进行日志采集到hdfs，然后通过调度系统进行SQL语句的计算，计算结果同步到MySQL、HBASE数据库中，供前端展示界面进行查询，前端展示采用FreeChart技术，遇到的问题：离线数据的分析要求以分钟为粒度能够展示任意分钟之内组合的数据，并达到降低开发成本和实时响应查询的性能需求； 4、POI日志分析平台要求对日志的分析具有实时性，整个技术架构的设计，通过TT采集日志，采用Spark Streaming对采集到的日志进行实时计算分析，并把结果同步到HBASE数据库中，整个流程的延迟在3分钟之内。

 项目2：地图底图数据渲染，提供给开发平台调用
 主要负责工作：1.设计访问后端数据的技术架构，主要采用Ngnix集群、Netty、HBase集群技术，考虑到成本没有采用Redis内存数据库；2.遇到的问题，一秒钟八万的并发访问从HBase集群取底图图片数据，并要求99.9%的访问在0.5秒钟之内返回，测试过程中不断进行优化最终达到目标。

2015.01-2015-12 北京蓝汛通信技术有限责任公司 JAVA高级开发工程师
参与项目：CMS系统
 主要完成CND业务系统相关应用程序配置的自动化；
 负责工作: 1、准确的对新需求进行技术评估，并能在规定的时间内完成功能设计评估以及开发工作；2.项目的搭建，主要采用JQuery、SpringMVC、Spring、Hibernate、MyBatis、RabbitMQ、Redis、MySql等相关技术, 并提项目相关技术的优化建议；3.负责相关业务模块的编写，例如FSCS应用、角色管理，集群管理，虚拟设备管理，SMS应用等；负责规划MYSQL数据库主从关系；

2012.7-2015.01 亚信科技(中国)有限公司 JAVA高级开发工程师(Hadoop工程师)
参与项目：CRM系统与集团接口(2012.7-2013.6)
 先后参与北京电信、河南电信CRM系统与集团接口项目本地化开发，包括营业受理、OD订单调度、服开、营销资源等模块；
 编写集团接口使用指南的文档。

参与项目：营销推荐(2013.7开发HADOOP应用,闹米网，亚信子公司)
 根据实际业务开发MapReduce程序，主要实现数据库类似的功能，例如，分组、过滤、去重、表连接等算法；
 对部分代码进行了重构和优化。

参与项目：山东经分ETL云化项目改造工作（2013.08-2015.01）

 该项目涉及到橘云调度平台ocdc(2.0版本)、Hadoop1.0、hive、MySQL等技术；
 业务上包括资料类接口与详单类接口并把ETL生成的数据加载到GBase数据仓库；
 负责工作：1.搭建云ETL平台，包括安装Java、Hadoop、Hive、Fuse、橘云调度平台和Mysql数据库等软件；2.基于橘云平台核心代码，负责开发橘云平台本地化，主要包括：抽取华为、中兴等厂商提供的文件，根据chk文件进行数据校验，数据转换以及数据加载GBase数据库；3.参与把生产系统中的SHELL脚本改造成HIVE SQL查询语句来实现，并开发数据稽核程序实现数据稽核工作自动化；4.开发通讯库同步的代码，该项目从etl的日志表同步状态到gbase的日志表，只有当GBase日志表接收到状态信号才能跑tcl程序。

0条评论雇主评价

暂无评论~

可兼职时间

周六全天

周日全天

工作日下班后

周六半天

周日半天

可兼职地点

海淀

昵称登录后显示

阿里巴巴 资深工程师

擅长技能

项目经验

0条评论 雇主评价

阿里巴巴

资深工程师

0条评论雇主评价