Como foi a sua experiência ao lidar com o seu último grande incidente? Entender como agir em equipe durante um grande incidente é essencial para limitar o seu impacto. Nesta palestra vamos aprender como a equipe Google SRE lida com grandes incidentes de forma rápida e efetiva.
Em todos os serviços que tem o suporte de uma equipe SRE há sempre a preparação para que este seja resistente a falhas. Mesmo assim, haverá um dia em que um grande incidente vai acontecer, e aí o impacto é determinado principalmente pelas práticas resposta de incidente da equipe responsável pelo serviço.
O grande desafio é que a maioria das pessoas não tem uma resposta natural que favoreça uma resposta efetiva nestes casos. A equipe Google SRE tem um protocolo sobre como lidar com incidentes maiores de forma bastante efetiva. Nós vamos entender como o protocolo funciona e vamos falar sobre treinamentos de resposta de incidentes para as pessoas oncall para cada serviço.
Quer saber mais sobre SRE? Pergunte me como :-)
Eu sou um Site Reliability Engineer no Google da Irlanda, onde já atuei nas áreas de Ads e Cloud. Hoje eu também faço parte da equipe que treina novos
...