Documentando uma interrupção para uma revisão post-mortem

14

Tivemos uma interrupção bastante séria na semana passada, afetando vários serviços que nos tiraram do SLA junto aos clientes. Agora que tudo foi resolvido, estou conduzindo uma revisão post-mortem.

A partir desta revisão, gostaria de apresentar um documento interno que descreva a interrupção, seus efeitos, nossa resposta e a resolução. Quero criar um formulário bastante padrão para reutilização futura. Incluí meus pensamentos abaixo, mas que outros itens devem ser incluídos? Se este fosse um incidente relacionado à segurança, o que você adicionaria?

  • Resumo Resumo do evento em nível executivo.
  • Serviços afetados
  • Impacto Qual foi o impacto em nossos usuários e SLAs? Houve um custo em dólares, transações perdidas, clientes perdidos etc.?
  • Duração da interrupção Para cada serviço afetado, se houver variações
  • Causa Incluindo causas primárias e secundárias
  • Resolução
  • Linha do tempo dos eventos Notificações, contato com fornecedores externos, notificações de clientes, respostas etc.
  • Problemas com a nossa resposta As coisas não foram como planejadas com a nossa resposta à interrupção? Pessoas corretas notificadas? Os fornecedores cumpriram suas obrigações contratadas?
  • Medidas preventivas a serem tomadas Como impedimos que essa interrupção ocorra novamente ou reduzimos seu impacto?
  • Método de detecção Até que ponto detectamos essa interrupção e como melhoramos a detecção no futuro?
  • Alterações a serem feitas em futuras respostas a interrupções

Tente manter as postagens com apenas um item e explicação, e essa postagem pode ser atualizada com as principais respostas votadas.

Doug Luxem
fonte

Respostas:

6

Embora possa ser abordado nas medidas preventivas a serem adotadas , eu recomendaria ter uma seção do método de detecção que você pudesse usar para observar quais eram os verdadeiros sintomas e como detectar o problema (mais rapidamente) se isso acontecer novamente, idealmente usando a automação.

JayC
fonte
Adicionado ao wiki
Doug Luxem
2

Parece bom. Gostaria apenas de adicionar o seguinte:

Efeitos / Consequências : Qual é a consequência da interrupção - quem foi afetado, quais SLAs foram violados (se houver)? Houve algum efeito indireto?

Marca
fonte
1

Os serviços afetados e a duração da interrupção informam apenas parte de quão ruim foi uma interrupção. Você também quer saber qual foi o impacto nos negócios.

Impacto : que efeito isso teve sobre os usuários e como foi percebido? Quanto isso nos custou (por falta de SLA, pedidos perdidos etc.)?

user8996
fonte
Gosto da distinção entre serviços afetados e impacto nos negócios, mas eu os categorizaria como "Impacto nos negócios" e não apenas impacto (para fazer uma distinção entre eles e as informações sobre os serviços / duração afetados). Além disso, ele vai chamar a atenção de gestão que precisa estar ciente do impacto nos negócios, se não todos os detalhes técnicos de quais serviços foram impactados ...
Milner
1

Public release & release interno

Isso é mais para a gerência decidir, mas você pode incluir o que deve ser liberado para os clientes sobre ele ou sua recomendação de qualquer maneira. De qualquer forma, obtenha aprovação da gerência com as palavras exatas do que será lançado aos clientes antes de liberar qualquer coisa.

O lançamento público deve ser incluído neste documento para que qualquer pessoa na empresa saiba o que tem permissão para informar aos clientes.

SpaceManSpiff
fonte
Eu acho que este documento interno pode ser usado para gerar um release externo para os clientes. Exatamente o que seria dito aos clientes caberia aos nossos executivos e marketing / comunicações.
Doug Luxem