Nicolas et Maxime de Critéo partagent avec Emmanuel leur expérience de mise en place d’une organisation SRE (Site Reliability Engineering). Suite et fin de cette interview.

Enregistré le 12 novembre 2020

Téléchargement de l’épisode LesCastCodeurs-Episode–245.mp3

Interview Ta vie, ton oeuvre

Twotter Nicolas Twitter Maxime Criteo Labs

Intros et premiers sujets en partie 1

Episode 243 - partie 1

Concepts intéressants

Standard Operating Procedure Gestion d’incident

Dashboard

Postmortem

Comment ça se passe ?

Relation avec l’équipe produit

On code sur le produit ? Feedback loop

Quid de systèmes fondamentalement en risque du black swan (échec systémique)

Une équipe SRE par boite ? Une équipe SRE par produit ?

Le monitoring

Quoi mesurer ? Beaucoup, peu ?

Entraînements et cas réels

Que se passe-t-il quand cela chie dans la colle ? On s’entraine ? Vous faite le draining d’erreur budget

Drainer des clusters pour maintenance et impact sur l’utilisateur

Conclusions

Livres Google sur le Site Reliability Engineering

Nous contacter

Faire un crowdcast ou une crowdquestion Contactez-nous via twitter https://twitter.com/lescastcodeurs sur le groupe Google https://groups.google.com/group/lescastcodeurs ou sur le site web https://lescastcodeurs.com/