● 负责公司 MCD 云平台,河图系统平台,rdcenter 平台,devops 平台建设
● 负责管理阿里云 ACK ,k8s集群运维
● 负责服务器的日常管理配置 docker,k8s,operator,mariadb,redis,nfs,gitlab,jenkins,Prometheus,grafana,golang,keepalived,efk,Loki,Influxdb,telegraf,kafka,ansible,istio,golang
● 熟悉 docker 相关 cgroup,ns,rootfs ,网络有深入了解
● 使用 golang 开发 基于 go,java 抓堆栈工具包。开发 rdcenter 平台中 资源和环境功能模块研发。
● 建立 SRE 规范体系:业务数据容灾备份,业务架构采用高可用,宿主机硬件资源根据预估量,使用量,冗余量做初步范围,及时处理报警信息,配置日志收集,形成良好的代码风格。
● 负责业务集群系统的部署,发布跟故障处理,运维线上线下标准化环境的统一,以及服务器和业务应用的监控
● 优化 maraidb 数据库集群,主要包括 数据库吞吐量,io 延迟,系统负载,buffer 缓冲
● 优化 cpu 调度模式,磁盘 io 调度算法
生产环境规模25台机器用于k8s集群