昵称登录后显示

500/8小时

5年工作经验

SRE工程师

Linux运维

kubernetes

docker

Linux

nginx

kafka，mysql

被预约次数

被收藏次数

被评价次数

擅长技能

拥有5年以上大型分布式系统SRE实战经验，专注于高并发互联网架构的稳定性保障与成本优化。核心优势在于将系统工程思维与软件开发深度融合，通过自动化手段解决运维痛点，保障业务连续性。

核心技术栈：
精通云原生生态，熟练掌握Kubernetes、Docker容器编排与服务网格（Istio）；具备AWS/Azure/阿里云大规模治理经验。基础设施即代码（IaC）擅长Terraform与Ansible，精通Python/Shell/Golang开发。可观测性领域，熟练搭建Prometheus+Grafana监控体系及ELK/Loki日志平台，实现全链路追踪。

核心项目成果：

1. 稳定性治理：主导核心系统容器化迁移，通过HPA弹性策略在双11流量洪峰（峰值QPS 10万+）下保持99.99%可用性；优化K8s资源调度，年度云成本降低25%。
2. 效率与自动化：重构CI/CD流水线，将部署效率提升40%，变更失败率降低50%；开发故障自愈平台，实现Pod异常与节点故障的分钟级自动修复。
3. 可观测性建设：建立立体监控体系，定义SLO/SLI核心指标，将平均故障恢复时间（MTTR）从30分钟缩短至5分钟以内；定期主导混沌工程实验，提前探测系统隐患。

工作理念：
坚信“自动化即救赎”，擅长通过错误预算策略平衡迭代速度与稳定性。目前以自由工程师身份承接项目，可提供架构评审、性能压测、成本优化、故障排查及SRE体系搭建等兼职服务，用工程化手段为企业数字化业务保驾护航。

项目经验

项目一：核心交易系统容器化迁移与稳定性护航

· 项目背景：原物理机架构扩容耗时长达30分钟，难以应对大促突发流量，且资源利用率低。
· 负责工作：主导核心应用迁移至Kubernetes集群，设计HPA（水平弹性伸缩）与Cluster Autoscaler联动策略；引入Istio服务网格实现灰度发布与流量精细化管理。
· 核心成果：在大促峰值QPS突破12万的场景下，实现秒级自动扩容，平均扩容时间缩短至2分钟；通过优化Pod调度与资源请求，年度云成本降低28%，核心链路可用性维持在99.99%。

项目二：全链路可观测性体系与故障自愈平台建设

· 项目背景：原有监控（Zabbix）与日志（ELK）割裂，故障定位平均耗时约25分钟，且大量重复性故障需人工介入。
· 负责工作：基于Prometheus + Thanos构建统一指标池，引入Loki日志与Jaeger链路追踪，建立“黄金信号”立体监控体系；开发故障自愈Operator，针对Pod CrashLoop、节点NotReady等场景编写自动化修复逻辑。
· 核心成果：故障平均恢复时间（MTTR）从25分钟锐减至5分钟以内，自愈覆盖率达65%，全年人工处理工单减少40%。

项目三：多云架构下的FinOps成本优化专项

· 项目背景：混合云环境（AWS+IDC）资源闲置严重，CPU平均利用率仅15%，月均云账单持续超标。
· 负责工作：利用Terraform重构资源编排，通过监控数据识别闲置资源；引入在线离线业务混部技术，结合Spot实例与预留实例动态调配策略。
· 核心成果：整体CPU利用率提升至45%，年度云资源总成本节省约30%，同时通过优化集群拓扑确保了业务SLA不受影响。

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

海淀

中关村

昵称登录后显示

SRE工程师 Linux运维

擅长技能

项目经验

0条评论 雇主评价

SRE工程师

Linux运维

0条评论雇主评价