Eu posso lhe dizer o que não funciona: ter um documento, uma planilha, uma página da Web ou um wiki editados manualmente.
Eu ainda não vi uma organização rigorosa o suficiente para manter manualmente sua documentação técnica 100% precisa e atualizada. Documentação imprecisa não é apenas irritante; é simplesmente perigoso. O que acontece se alguém esquecer de observar que service a
está sendo executado em server x
? Se você confiasse na documentação, acabaria com o tempo de inatividade inesperado de service a
.
A primeira parte da solução é automatizar o processo usando uma plataforma de monitoramento, como Xymon, Nagios ou Zabbix (há muitos outros). É possível estender essas plataformas com scripts personalizados para responder à maioria das perguntas sobre o software e o hardware. A plataforma de monitoramento garantirá que esta documentação automática seja mantida atualizada.
A segunda parte da solução é ter um mecanismo que avisa quando a sua cobertura está incompleta. Por exemplo, eu uso um script personalizado que lista todos os processos em execução em um sistema, filtra os processos que são monitorados ou ignorados e me alerta sobre quaisquer que sejam inesperados - isso me diz que é hora de adicionar esses novos processos a plataforma de monitoramento. Outro exemplo é a referência cruzada do status da sua porta Cisco com informações do CDP para garantir que você tenha coberto todos os seus servidores.
O grande benefício dessa abordagem é que você está fazendo a documentação e recebe alertas e tendências de graça.