Eu faço parte de interrupções quase todos os dias (monitore links WAN para 44 sites). Os 'pequenos' são os que têm menos de 5 minutos e na maioria das vezes passam despercebidos (o NOC monitora apenas as interrupções superiores a 5 minutos, por algum motivo). Eu tento me comunicar com o site para ver se era um problema interno e verificar os logs do roteador sempre que o problema for "desconhecido".
Eu acho que Comunicação é fundamental (e isso é um eufemismo!) ao lidar com interrupções. NÃO ESPERE SER CHAMADO enquanto estiver resolvendo problemas ou tentando descobrir o que exatamente aconteceu. Certifique-se de comunicar que você sabe que eles estão em baixo e você está trabalhando nisso. Dê a eles um período de tempo em que você retornará a eles para lhes dar atualizações sobre a situação (ETR). Não deixe que eles pensem que você se esqueceu deles, certifique-se de que eles saibam que alguém está olhando para o problema deles. Você os chama, então eles não precisam ligar para você.
Felizmente, o mais longo que um site esteve em baixo do meu relógio foi de 7 horas (isto é dentro de um dia de trabalho 10 am-5pm). Deveria ter sido mais curto em algumas horas, se não fosse pela falta de boa comunicação entre todas as partes envolvidas. Muito bem, o problema não foi escalado corretamente, e devido à suposição de que "alguém estava trabalhando nisso", o problema levou (relativamente ao site) para sempre a ser resolvido.