课程简介:

SRE,网站可靠性工程师,相较于传统运维,SRE 更注重用软件工程的思维来提高服务的性能、稳定性和扩展性,薪资更高,职业空间更大,是毕业生求职,研发、测试、运维工程师突破职场困境的蓝海岗位。本课程由资深 SRE 专家亲授,以故障事件管理为核心,带你系统构建实用知识体系;收获大厂级可复用的服务保障方案【覆盖监控、容量规划、故障处理、自动化运维及性能优化等关键领域】;打通硬技能的同时,更倍增全局可靠性思维的软技能 ,助你快人一步驶入提升核心竞争力的快车道。

你将学到:

  • 系统掌握 SRE 实用核心技能
  • 掌握可复用大厂服务保障方案
  • 提升快速定位与故障处理能力
  • 提升容量规划与性能优化技巧
  • 倍增全局系统安全可靠性思维
  • 具备AIOps服务保障落地经验

试看链接:https://pan.baidu.com/s/1kRy4qwBxHkv-u_I31pValQ?pwd=sp4i

相关推荐:

马哥SRE就业班

2023全新升级版Linux云计算SRE工程师4.0

课程目录:

第1章 SRE入行第一课 (2节 | 15分钟)

  • 1-1 跟大牛学大厂经验,轻松开启职业新篇章 (10:04)
  • 1-2 就业新蓝海:可靠性工程师前景展望 (04:43)

第2章 大厂SRE秘籍:颠覆传统运维的速通指南 (6节 | 51分钟)

  • 2-1 站点可靠性工程基本概念入门 (15:00)
  • 2-2 对比运维和DevOps理解SRE (06:52)
  • 2-3 从SRE的方法论了解工作流程 (10:22)
  • 2-4 可靠性设计的十个原则 (10:51)
  • 2-5 SRE工程师技术栈全貌和成长之路 (04:12)
  • 2-6 本章总结 (03:33)

第3章 拥抱云原生:开启稳定高效的云上运维新篇章 (8节 | 58分钟)

  • 3-1 微服务:现代化应用的分身术 (06:31)
  • 3-2 从可靠性工程师视角设计软件架构 (07:31)
  • 3-3 云原生:构筑未来数字世界的底座 (04:08)
  • 3-4 容器引擎和容器编排:封装和运输任何应用的强大引擎 (05:14)
  • 3-5 云上网络 (06:12)
  • 3-6 Docker基础命令实操 (10:14)
  • 3-7 容器化实操:基于Kubernetes部署可伸缩的在线服务集群 (13:17)
  • 3-8 本章总结 (04:04)

第4章 久经实战的武器库:大厂SRE如何化解故障无法感知、难于定位的系统难题 (10节 | 96分钟)

  • 4-1 快速入门APM可观测 (13:12) – 试看
  • 4-2 如何评估系统的可用性和服务质量 (12:09)
  • 4-3 厘清庞大系统的脉络,APM有哪些工具与平台 (07:09)
  • 4-4 手动搭建和微服务项目应用SkyWalking (11:56)
  • 4-5 详解Prometheus架构设计 (04:57)
  • 4-6 Prometheus + Grafana监控Golang应用和机器性能 (12:44)
  • 4-7 全面掌握Prometheus的Exporter (08:00)
  • 4-8 全面掌握Prometheus的AlertManager (03:38)
  • 4-9 实战搭建基于阿里云SLS日志服务的Nginx网关层监控报警 (16:32)
  • 4-10 本章总结 (05:12)

第5章 SRE新视角:AIOps的探索与实践 (5节 | 45分钟)

  • 5-1 什么是AIOps (10:27)
  • 5-2 AIOps之故障发现 (13:47)
  • 5-3 SREWorks:阿里云的一站式DevOps解决方案 (07:37)
  • 5-4 织云 Metis:腾讯怎么做智能运维Metis (08:42)
  • 5-5 本章总结 (04:04)

第6章 未雨绸缪:在故障前打造多维防护网,拒故障于千里之外 (13节 | 142分钟)

  • 6-1 本章介绍:了解容易被忽视的故障前工作 (07:19)
  • 6-2 持续集成、持续交付与持续部署:构建代码审查、质量保证、分级发布的自动化通道 (16:05)
  • 6-3 容灾:冗余设计与容错处理 (16:26)
  • 6-4 安全合规:必要的信息保护与数据安全 (18:07)
  • 6-5 可观测建设:风险识别、分析、评估和告警 (18:38)
  • 6-6 故障预案:应急响应流程设计 (09:46)
  • 6-7 反脆弱:环境、产品和人的关系 (05:47)
  • 6-8 系统压测:了解系统瓶颈 (09:33)
  • 6-9 防患于未然:容量动态规划与预测 (09:24)
  • 6-10 系统过载的预防设计 (05:58)
  • 6-11 如何合理地建设7*24小时的OnCall机制 (09:35)
  • 6-12 混沌工程 (09:29)
  • 6-13 本章总结 (05:34)

第7章 有条不紊:突破传统运维,紧密贴近业务,SRE在故障中的关键角色与应对策略 (4节 | 40分钟)

  • 7-1 争分夺秒的故障中 (10:08)
  • 7-2 故障响应:抓告警,定位,预案执行 (10:16)
  • 7-3 各种原因产生故障的应对策略 (07:50)
  • 7-4 棘手的连锁故障 (11:28)

第8章 前事不忘,后事之师:SRE从复盘中收获成长力量,开拓创新迈向卓越 (3节 | 28分钟)

  • 8-1 失败不是成功之母,复盘才是 (16:28)
  • 8-2 复盘模板设计和解析 (06:13)
  • 8-3 在沉淀中成长,在实践中改进 (05:13)

第9章 SRE智慧之鉴:深度剖析近期大型互联网应用故障案例 (4节 | 37分钟)

  • 9-1 它山之石可以攻玉,盘点近期几大互联网故障复盘报告 (13:18)
  • 9-2 2024年4月8日 腾讯云控制台故障 (06:24)
  • 9-3 2023年11月27日 滴滴全平台服务中断故障 (09:32)
  • 9-4 2024年8月19日 网易网站+云音乐服务中断故障 (07:10)

第10章 SRE底蕴:团队文化共筑系统可靠性长城 (5节 | 38分钟)

  • 10-1 SRE可靠性文化的建立 (03:08)
  • 10-2 OnCall值日生的一天 (05:32)
  • 10-3 平衡OnCall和日常工作 (08:10)
  • 10-4 新人培养和团队文化 (11:22)
  • 10-5 跨职能协作与沟通 (09:07)

第11章 求职指导与课程总结 (2节 | 25分钟)

  • 11-1 SRE求职面试辅导 (18:37)
  • 11-2 课程总结 (06:13)

本课程已完结。