Jour 1
Introduction au Site Reliability Engineering
Historique et émergence de la discipline SRE
- Chez Google
- Intégration avec le mouvement DevOps
Opérer des systèmes en production
Les différents rôles et responsabilités d’une équipe SRE
- Garant de la fiabilité des applications et services
- Garant du pilotage de l’error budget
- Garant de la minimisation du toil
SRE : garant de la fiabilité des services et applications
Le cycle de vie d’un logiciel
Reliability/Fiabilité : définitions
Monitoring
- Définition et concepts : monitoring vs. Observabilité
- Alertes, tickets, logs
- Créer un système d’alertes efficace
- Statistiques appliquées au monitoring
Être on-call
- Organisation d’une équipe d’astreinte
- Diagnostiquer efficacement un incident
- Rédiger un rapport d’erreur
- Mise en pratique : “Diagnostiquer et corriger un incident de production”
Prendre en charge un service ou une application : Production Readiness Review
Release Engineering : la gestion des changes
Jour 2
SRE : garant du pilotage de l’error budget
La gestion du risque d’un système informatique
Les outils de mesure et de pilotage de l’équipe SRE : SLI, SLO, SLA, Error budget
Mise en pratique : “Mettre en place des SLI/SLO/Error budget pour un service/application”
SRE : garant de l’automatisation de ses services
La contrainte économique - la scalabilité des équipes
Agir sur le toil : les tâches sans valeur ajoutée
- Identifier le toil
- Bloquer du temps dédié à l’automatisation
Organiser l’automatisation de l’opération de ses systèmes
Mise en pratique : “Identification de tâches automatisables”
Organisation et culture
SRE vs DevOps
L’équipe SRE dans une organisation agile
- Intégration
- Impact sur le reste de l’organisation
Mettre en place une culture de l’apprentissage
- Sécurité psychologique
- Blameless postmortem
Intégrer un nouvel SRE