● 负责公司 MCD 云平台,河图系统平台,rdcenter 平台,devops 平台建设
● 负责管理阿里云 ACK ,k8s集群运维
● 负责服务器的日常管理配置 docker,k8s,operator,mariadb,redis,nfs,gitlab,jenkins,Prometheus,grafana,golang,keepalived,efk,Loki,Influxdb,telegraf,kafka,ansible,istio,golang
● 熟悉 docker 相关 cgroup,ns,rootfs ,网络有深入了解
● 使用 golang 开发 基于 go,java 抓堆栈工具包。开发 rdcenter 平台中 资源和环境功能模块研发。
● 建立 SRE 规范体系:业务数据容灾备份,业务架构采用高可用,宿主机硬件资源根据预估量,使用量,冗余量做初步范围,及时处理报警信息,配置日志收集,形成良好的代码风格。
● 负责业务集群系统的部署,发布跟故障处理,运维线上线下标准化环境的统一,以及服务器和业务应用的监控
● 优化 maraidb 数据库集群,主要包括 数据库吞吐量,io 延迟,系统负载,buffer 缓冲
● 优化 cpu 调度模式,磁盘 io 调度算法
生产环境规模25台机器用于k8s集群
项目描述:物流产业河图产品,主要负责线上线下服务器运维开发工作,项目架构采用k8s调度后端 java,go 项目,数据缓存采用 redis 哨兵,数据库采用 mariadb- galera ,代码平台,采用 jenkins+gitlab 自动化构建编译打包发布,EFK 收集统计 java,go 服务日志,prometheus+alertmanager+grafana +钉钉收集集群,业务,服务器报警信息。每周一进行服务器,k8s集群,河图业务巡检,并且总结升级解决哪些性能,慢日志问题。
● ELK 日志平台:负责日志系统搭建配置,服务器安装 fluent-bit做 go,java 业务日志的采集同时也采集整个集群,系统日志,kafka 用于消息队列,logstash 的正则筛选,elasticsearch 的数据保存,最后通过 kibana 做界面展示分析。
● Loki 日志平台:负责 loki 日志收集平台搭建配置,服务器安装 promtail 作为日志采集端,loki 作为 promtail 收入端,同时过滤日志信息,转发到对象存储后端,UI 界面作为日志展示平台。
● jenkins 发布平台:主要负责 jenkins 发布平台的搭建配置,项目通过 jenkins 持续集成构建业务代码,执行远程服务器上脚本完成持续构建通过邮件通知。
● 监控告警平台:负责监控告警系统搭建配置,服务器安装各种第三方 exporter 插件,未有的指标采用 pushgateway 发送到 prometheus server ,完成指标采集,报警主要包含 pod ,集群,基础组件,服务器级别并且配置告警阈值,alertmanager 根据报警触发的规则通知钉钉/邮箱,grafana 作为监控图表展示
● 使用 golang 开发某些业务堆栈程序包并且触发钉钉告警,将拿到堆栈信息发送指定服务器目录下。
● Maraidb 采用 galera 模式数据库构建多主集群--3主节点。备份 mariadb 重要数据,archive 重要数据到宿主机并且存储一份到远端服务器。减小数据库性能使用压力,例如 qps,tps ,吞吐量,磁盘 io
● redis 采用哨兵模式,构建一主两从集群,rdb 块设备备份数据。
可兼职时间
可兼职地点
0条评论 雇主评价