Documentando uma interrupção para uma revisão post-mortem

14

Tivemos uma interrupção bastante séria na semana passada, afetando vários serviços que nos tiraram do SLA com os clientes. Agora que tudo foi resolvido, estou realizando uma revisão post-mortem.

A partir desta análise, gostaria de apresentar um documento interno que descreva a interrupção, seus efeitos, nossa resposta e a resolução. Eu quero criar um formulário padrão para reutilização futura. Eu incluí meus pensamentos abaixo, mas que outros itens devem ser incluídos? Se este fosse um incidente relacionado à segurança, o que você acrescentaria?

  • Resumo Resumo do nível executivo do evento.
  • Serviços afetados
  • Impacto Qual foi o impacto em nossos usuários e SLAs? Houve um custo em termos de dólares, transações perdidas, clientes perdidos, etc?
  • Duração da interrupção Para cada serviço afetado, se houver variações
  • Causa incluindo causas primárias e secundárias
  • Resolução
  • Cronograma de eventos Notificações, contato com fornecedores externos, notificações de clientes, respostas, etc.
  • Problemas com nossa resposta As coisas não correram como planejadas com nossa resposta à interrupção? Pessoas corretas notificadas? Os fornecedores cumpriram suas obrigações contratadas?
  • Medidas preventivas a serem tomadas Como evitar que essa interrupção ocorra novamente ou reduza seu impacto?
  • Método de Detecção Quão bem detectamos essa interrupção e como melhoramos a detecção no futuro?
  • Alterações a serem feitas nas respostas futuras a interrupções

Tente manter as postagens em um item e uma explicação, e essa postagem pode ser atualizada com as respostas mais votadas.

    
por Doug Luxem 20.08.2009 / 20:16

4 respostas

6

Embora possa ser coberto nas Medidas preventivas a serem aplicadas , eu recomendaria uma seção Método de detecção que você pudesse usar para observar quais eram os verdadeiros sintomas e como você poderia detectar o problema (mais rápido) se isso acontecesse novamente, de preferência usando a automação.

    
por 21.06.2009 / 05:22
2

Parece bom. Eu adicionaria apenas o seguinte:

Efeitos / Consequências : Qual é a consequência da interrupção - quem foi afetado, quais SLAs foram violados (se houver), houve algum efeito indireto?

    
por 20.06.2009 / 21:36
1

Os serviços afetados e a duração da interrupção informam apenas parte de quão ruim foi uma interrupção. Você também quer saber qual foi o impacto no negócio.

Impacto : qual efeito isso teve sobre os usuários e como foi percebido? Quanto dinheiro isso nos custou (por falta de SLA, perda de pedidos, etc.)?

    
por 21.06.2009 / 00:44
1

Lançamento público & lançamento interno

Isso é mais algo para a gerência decidir, mas você pode incluir o que deve ser divulgado aos clientes sobre isso ou sua recomendação. Também, de qualquer forma, saia da diretoria com as palavras exatas do que será liberado para os clientes antes de liberar qualquer coisa.

O lançamento público deve ser incluído no documento para que qualquer pessoa na empresa saiba o que pode contar aos clientes.

    
por 21.06.2009 / 02:49

Tags