实现网
林枫-b14d3c73

昵称登录后显示

500/8小时
5年工作经验

SRE工程师
Linux运维

kubernetes
docker
Linux
nginx
kafka,mysql

0

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

拥有5年以上大型分布式系统SRE实战经验,专注于高并发互联网架构的稳定性保障与成本优化。核心优势在于将系统工程思维与软件开发深度融合,通过自动化手段解决运维痛点,保障业务连续性。

核心技术栈:
精通云原生生态,熟练掌握Kubernetes、Docker容器编排与服务网格(Istio);具备AWS/Azure/阿里云大规模治理经验。基础设施即代码(IaC)擅长Terraform与Ansible,精通Python/Shell/Golang开发。可观测性领域,熟练搭建Prometheus+Grafana监控体系及ELK/Loki日志平台,实现全链路追踪。

核心项目成果:

1. 稳定性治理:主导核心系统容器化迁移,通过HPA弹性策略在双11流量洪峰(峰值QPS 10万+)下保持99.99%可用性;优化K8s资源调度,年度云成本降低25%。
2. 效率与自动化:重构CI/CD流水线,将部署效率提升40%,变更失败率降低50%;开发故障自愈平台,实现Pod异常与节点故障的分钟级自动修复。
3. 可观测性建设:建立立体监控体系,定义SLO/SLI核心指标,将平均故障恢复时间(MTTR)从30分钟缩短至5分钟以内;定期主导混沌工程实验,提前探测系统隐患。

工作理念:
坚信“自动化即救赎”,擅长通过错误预算策略平衡迭代速度与稳定性。目前以自由工程师身份承接项目,可提供架构评审、性能压测、成本优化、故障排查及SRE体系搭建等兼职服务,用工程化手段为企业数字化业务保驾护航。

项目经验

项目一:核心交易系统容器化迁移与稳定性护航

· 项目背景:原物理机架构扩容耗时长达30分钟,难以应对大促突发流量,且资源利用率低。
· 负责工作:主导核心应用迁移至Kubernetes集群,设计HPA(水平弹性伸缩)与Cluster Autoscaler联动策略;引入Istio服务网格实现灰度发布与流量精细化管理。
· 核心成果:在大促峰值QPS突破12万的场景下,实现秒级自动扩容,平均扩容时间缩短至2分钟;通过优化Pod调度与资源请求,年度云成本降低28%,核心链路可用性维持在99.99%。

项目二:全链路可观测性体系与故障自愈平台建设

· 项目背景:原有监控(Zabbix)与日志(ELK)割裂,故障定位平均耗时约25分钟,且大量重复性故障需人工介入。
· 负责工作:基于Prometheus + Thanos构建统一指标池,引入Loki日志与Jaeger链路追踪,建立“黄金信号”立体监控体系;开发故障自愈Operator,针对Pod CrashLoop、节点NotReady等场景编写自动化修复逻辑。
· 核心成果:故障平均恢复时间(MTTR)从25分钟锐减至5分钟以内,自愈覆盖率达65%,全年人工处理工单减少40%。

项目三:多云架构下的FinOps成本优化专项

· 项目背景:混合云环境(AWS+IDC)资源闲置严重,CPU平均利用率仅15%,月均云账单持续超标。
· 负责工作:利用Terraform重构资源编排,通过监控数据识别闲置资源;引入在线离线业务混部技术,结合Spot实例与预留实例动态调配策略。
· 核心成果:整体CPU利用率提升至45%,年度云资源总成本节省约30%,同时通过优化集群拓扑确保了业务SLA不受影响。

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀
中关村

被预约

0

被收藏

0

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀
中关村

最近有空闲时间