2018.03-2020.07 广州汇量科技信息有限公司 资深工程师(离线数据处理负责人)
参与项目:对广告用户点击量指标进行多维度建模
编写数仓优化文档(包括命名和编码规范等)以及每个层主要工作和注意事项,根据数据特征从不同角度划分维表:1)从数据量角度分为大维表和小维表,2)从字段变化速度分为缓慢变化维和快速变化维;结合不同维度表自身特征有针对性的给出技术解决方案,最终设计出结构清晰的多维数据模型;
由于维度表已经存储两百多天的快照,开发MapReduce程序来处理维度表的初始化数据;开发周期性运行SCD2拉链表的处理逻辑;
达到的目标:1)降低数据存储成本,对维表表做拉链、数据压缩等方法;2)支持更多查询类型,从事实数据中抽取出维度特征的数据等方法;3)通过设计合理的表存储结构,使得数据查询更快,SQL运行更高效;4)保证数据分析过程的数据质量;
详情参见博客https://blog.csdn.net/andyliuzhii/article/details/79925781
参与项目:GA项目改造
出于成本考虑,由原来Redshift集群迁移到EMR集群,开发EMR集群启动并执行预先定义的Step逻辑;处理数量级在1T,2亿多条数据;
遇到的问题:1)集群节点竞价失败导致集群不稳定;2)处理逻辑比较复杂对业务逻辑进行重写;3)输入的小文件过多导致作业执行失败。
参与项目:DMP数据管理平台
该平台主要实现用户画像数据抽取,包括手机安装包、年龄、性别、兴趣标签等数据,数据加工后提供给算法使用;
业务线包括dsp/adn/ga/3s,其中dsp这个业务线每天用户流量数据20T多,adn业务数据量6T,涉及到千亿级流量数据;
设计电商在营销重定向项目、DMP实时服务规划需求等;
作业运行在AWS集群上,涉及到技术Spark/Hadoop/Azkaban/S3文件系统等技术。
参与项目:实时数仓
分析用户流量日志计算出PV/UV,漏斗转化分析每天请求、展示、点击、安装的用户数量;
从MySQL数据库拉取订单,分析不同国家订单周环比;
涉及到技术Flink/Kafka/canal/driud/superset/hbase等技术。
2017.06-2018.02 北京基调网络有限公司 架构师
参与项目:(一).用户活跃度实时统计分析
基于Spark大数据计算框架计算用户活跃度,每隔一分钟计算最近一个小时的用户数量,搭建Hadoop和Spark大数据存储与计算平台,优化streamming作业的运行性能;
(二).异常检测项目
异常检测项目:基于时间序列的异常检测,例如,错误率、平均响应时间、内存使用率和CPU使用率等指标,主要涉及到Spark Streaming/Flink、kafka、opentsdb、redis、HBase与基于时间序列HotWinters算法等技术。
详情参加微博 http://blog.csdn.net/andyliuzhii/article/details/ 79019800
2015.12-2017.05 高德信息技术有限公司 资深研发工程师(P6+)
参与项目:地图服务日志分析,POI日志分析
项目1:大数据基础平台建设,根据实际业务需求设计离线数据分析与实时数据分析的技术架构以及实际的业务开发工作
负责工作: 1、基于大数据调度系统的设计、开发与上线,该系统采用quartz进行作业的定时调度,图像化界面进行业务开发; 2、根据离线数据把业务分为手机矢量数据、栅格图、动态渲染、静态图、手机图片存储、三维用户与手机推送等场景, 通过TT进行日志采集到hdfs,然后通过调度系统进行SQL语句的计算,计算结果同步到MySQL、HBASE数据库中,供前端展示界面进行查询,前端展示采用FreeChart技术,遇到的问题:离线数据的分析要求以分钟为粒度能够展示任意分钟之内组合的数据,并达到降低开发成本和实时响应查询的性能需求; 4、POI日志分析平台要求对日志的分析具有实时性,整个技术架构的设计,通过TT采集日志,采用Spark Streaming对采集到的日志进行实时计算分析,并把结果同步到HBASE数据库中,整个流程的延迟在3分钟之内。
项目2:地图底图数据渲染,提供给开发平台调用
主要负责工作:1.设计访问后端数据的技术架构,主要采用Ngnix集群、Netty、HBase集群技术,考虑到成本没有采用Redis内存数据库;2.遇到的问题,一秒钟八万的并发访问从HBase集群取底图图片数据,并要求99.9%的访问在0.5秒钟之内返回,测试过程中不断进行优化最终达到目标。
2015.01-2015-12 北京蓝汛通信技术有限责任公司 JAVA高级开发工程师
参与项目:CMS系统
主要完成CND业务系统相关应用程序配置的自动化;
负责工作: 1、准确的对新需求进行技术评估,并能在规定的时间内完成功能设计评估以及开发工作;2.项目的搭建,主要采用JQuery、SpringMVC、Spring、Hibernate、MyBatis、RabbitMQ、Redis、MySql等相关技术, 并提项目相关技术的优化建议;3.负责相关业务模块的编写,例如FSCS应用、角色管理,集群管理,虚拟设备管理,SMS应用等;负责规划MYSQL数据库主从关系;
2012.7-2015.01 亚信科技(中国)有限公司 JAVA高级开发工程师(Hadoop工程师)
参与项目:CRM系统与集团接口(2012.7-2013.6)
先后参与北京电信、河南电信CRM系统与集团接口项目本地化开发,包括营业受理、OD订单调度、服开、营销资源等模块;
编写集团接口使用指南的文档。
参与项目:营销推荐(2013.7开发HADOOP应用,闹米网,亚信子公司)
根据实际业务开发MapReduce程序,主要实现数据库类似的功能,例如,分组、过滤、去重、表连接等算法;
对部分代码进行了重构和优化。
参与项目: 山东经分ETL云化项目改造工作(2013.08-2015.01)
该项目涉及到橘云调度平台ocdc(2.0版本)、Hadoop1.0、hive、MySQL等技术;
业务上包括资料类接口与详单类接口并把ETL生成的数据加载到GBase数据仓库;
负责工作:1.搭建云ETL平台,包括安装Java、Hadoop、Hive、Fuse、橘云调度平台和Mysql数据库等软件;2.基于橘云平台核心代码,负责开发橘云平台本地化,主要包括:抽取华为、中兴等厂商提供的文件,根据chk文件进行数据校验,数据转换以及数据加载GBase数据库;3.参与把生产系统中的SHELL脚本改造成HIVE SQL查询语句来实现,并开发数据稽核程序实现数据稽核工作自动化;4.开发通讯库同步的代码,该项目从etl的日志表同步状态到gbase的日志表,只有当GBase日志表接收到状态信号才能跑tcl程序。