Se você quiser apenas os principais criminosos, considere executar top
com um intervalo relativamente longo (60 segundos mais) no modo em lote. Você pode precisar de mais de um top
em execução para capturar os principais infratores em vários recursos. Eu configurei sistemas para executar top
por alguns ciclos quando um recurso estava sendo usado.
Considere executar sar
no modo em lote para capturar a utilização de recursos. Eu percebo que isso é baseado em servidor, mas é útil determinar os momentos em que os problemas estão ocorrendo.
Execute munin
e ative as notificações. Isso pode lhe dar uma chance de entrar e assistir ao servidor ser desativado. Você pode corrigir o problema antes que ele caia.
Para vazamentos de memória, um aumento constante no uso de swap indica um problema. Certa vez, assisti a um servidor morrer lentamente durante um período de dias. O serviço de problema era um programa que monitorava outros processos para vazamentos de memória. O administrador do sistema insistia que o crescente uso de swap não era um problema, até que o servidor parasse de responder.
Você pode descobrir que a detecção de anomalia do cfengine
pode ser usada para acionar um script para capturar o estado do sistema quando as coisas dão errado. Você pode querer muitas informações além dos processos que usam a maioria dos recursos. Para um fluxo repentino de uso, você pode querer uma lista de conexões de rede (por endereço, não nome). O uso de memória também é útil.