SRE 急速入门，开辟你的职业蓝海

课程简介：

SRE，网站可靠性工程师，相较于传统运维，SRE 更注重用软件工程的思维来提高服务的性能、稳定性和扩展性，薪资更高，职业空间更大，是毕业生求职，研发、测试、运维工程师突破职场困境的蓝海岗位。本课程由资深 SRE 专家亲授，以故障事件管理为核心，带你系统构建实用知识体系；收获大厂级可复用的服务保障方案【覆盖监控、容量规划、故障处理、自动化运维及性能优化等关键领域】；打通硬技能的同时，更倍增全局可靠性思维的软技能，助你快人一步驶入提升核心竞争力的快车道。

你将学到：

系统掌握 SRE 实用核心技能
掌握可复用大厂服务保障方案
提升快速定位与故障处理能力
提升容量规划与性能优化技巧
倍增全局系统安全可靠性思维
具备AIOps服务保障落地经验

试看链接：https://pan.baidu.com/s/1kRy4qwBxHkv-u_I31pValQ?pwd=sp4i

课程目录：

第1章 SRE入行第一课 (2节 | 15分钟)

1-1 跟大牛学大厂经验，轻松开启职业新篇章 (10:04)
1-2 就业新蓝海：可靠性工程师前景展望 (04:43)

第2章大厂SRE秘籍：颠覆传统运维的速通指南 (6节 | 51分钟)

第3章拥抱云原生：开启稳定高效的云上运维新篇章 (8节 | 58分钟)

3-1 微服务：现代化应用的分身术 (06:31)
3-2 从可靠性工程师视角设计软件架构 (07:31)
3-3 云原生：构筑未来数字世界的底座 (04:08)
3-4 容器引擎和容器编排：封装和运输任何应用的强大引擎 (05:14)
3-5 云上网络 (06:12)
3-6 Docker基础命令实操 (10:14)
3-7 容器化实操：基于Kubernetes部署可伸缩的在线服务集群 (13:17)
3-8 本章总结 (04:04)

第4章久经实战的武器库：大厂SRE如何化解故障无法感知、难于定位的系统难题 (10节 | 96分钟)

4-1 快速入门APM可观测 (13:12) – 试看
4-2 如何评估系统的可用性和服务质量 (12:09)
4-3 厘清庞大系统的脉络，APM有哪些工具与平台 (07:09)
4-4 手动搭建和微服务项目应用SkyWalking (11:56)
4-5 详解Prometheus架构设计 (04:57)
4-6 Prometheus + Grafana监控Golang应用和机器性能 (12:44)
4-7 全面掌握Prometheus的Exporter (08:00)
4-8 全面掌握Prometheus的AlertManager (03:38)
4-9 实战搭建基于阿里云SLS日志服务的Nginx网关层监控报警 (16:32)
4-10 本章总结 (05:12)

第5章 SRE新视角：AIOps的探索与实践 (5节 | 45分钟)

5-1 什么是AIOps (10:27)
5-2 AIOps之故障发现 (13:47)
5-3 SREWorks：阿里云的一站式DevOps解决方案 (07:37)
5-4 织云 Metis：腾讯怎么做智能运维Metis (08:42)
5-5 本章总结 (04:04)

第6章未雨绸缪：在故障前打造多维防护网，拒故障于千里之外 (13节 | 142分钟)

6-1 本章介绍：了解容易被忽视的故障前工作 (07:19)
6-2 持续集成、持续交付与持续部署：构建代码审查、质量保证、分级发布的自动化通道 (16:05)
6-3 容灾：冗余设计与容错处理 (16:26)
6-4 安全合规：必要的信息保护与数据安全 (18:07)
6-5 可观测建设：风险识别、分析、评估和告警 (18:38)
6-6 故障预案：应急响应流程设计 (09:46)
6-7 反脆弱：环境、产品和人的关系 (05:47)
6-8 系统压测：了解系统瓶颈 (09:33)
6-9 防患于未然：容量动态规划与预测 (09:24)
6-10 系统过载的预防设计 (05:58)
6-11 如何合理地建设7*24小时的OnCall机制 (09:35)
6-12 混沌工程 (09:29)
6-13 本章总结 (05:34)

第7章有条不紊：突破传统运维，紧密贴近业务，SRE在故障中的关键角色与应对策略 (4节 | 40分钟)

7-1 争分夺秒的故障中 (10:08)
7-2 故障响应：抓告警，定位，预案执行 (10:16)
7-3 各种原因产生故障的应对策略 (07:50)
7-4 棘手的连锁故障 (11:28)

第8章前事不忘，后事之师：SRE从复盘中收获成长力量，开拓创新迈向卓越 (3节 | 28分钟)

8-1 失败不是成功之母，复盘才是 (16:28)
8-2 复盘模板设计和解析 (06:13)
8-3 在沉淀中成长，在实践中改进 (05:13)

第9章 SRE智慧之鉴：深度剖析近期大型互联网应用故障案例 (4节 | 37分钟)

9-1 它山之石可以攻玉，盘点近期几大互联网故障复盘报告 (13:18)
9-2 2024年4月8日腾讯云控制台故障 (06:24)
9-3 2023年11月27日滴滴全平台服务中断故障 (09:32)
9-4 2024年8月19日网易网站+云音乐服务中断故障 (07:10)

第10章 SRE底蕴：团队文化共筑系统可靠性长城 (5节 | 38分钟)

10-1 SRE可靠性文化的建立 (03:08)
10-2 OnCall值日生的一天 (05:32)
10-3 平衡OnCall和日常工作 (08:10)
10-4 新人培养和团队文化 (11:22)
10-5 跨职能协作与沟通 (09:07)

第11章求职指导与课程总结 (2节 | 25分钟)

11-1 SRE求职面试辅导 (18:37)
11-2 课程总结 (06:13)

本课程已完结。

声明：本站所有资料均来源于网络以及用户发布，如对资源有争议请联系微信客服我们可以安排下架！

SRE 急速入门，开辟你的职业蓝海(完结）

课程简介：

你将学到：

试看链接：https://pan.baidu.com/s/1kRy4qwBxHkv-u_I31pValQ?pwd=sp4i

相关推荐：

马哥SRE就业班

2023全新升级版Linux云计算SRE工程师4.0