Existem muitos softwares como esse, uma coisa a se notar é que você deve executá-lo em um host diferente ou você tem um alto risco de não ser notificado se algo der errado.
Como exemplo, usamos uma combinação de nagios (lida com todo o monitoramento e alerta, em outras palavras, é responsável por acordar alguém quando há alguma necessidade de um operador olhando para algo) e cactos (também pode fazer alerta) mas nós apenas a usamos para coletar e agregar várias métricas, variando de tráfego de rede a carga do sistema e estatísticas de spam de e-mail).
Quando chegar a hora de você receber um alerta (do nagios cacti zabbix whatever) ter alguns dados de desempenho para analisar (cacti, zabbix, os outros farão isso) geralmente ajudará você a diagnosticar onde está o problema.
Na pilha LAMP usual que você descreve as duas situações problemáticas mais comuns (na minha experiência, pelo menos) é o servidor HTTP ou SQL não respondendo de todo ou em um tempo razoável (um teste nagios irá verificar isso) ou carregar média no sistema indo muito alto.
Estas duas verificações provavelmente irão capturar 95% dos seus problemas, mas há muitas outras coisas que você deve procurar - exemplos:
- o apache trabalhando constantemente com o número máximo de processos / threads configurados significa que seu servidor não está acompanhando a carga
- sistema funcionando "ok", mas com uma unidade com falha no RAID (você não sabe com que frequência esse tipo de coisa passa despercebida por meses - ou pelo menos até a próxima falha de disco;)
Quase todos os produtos que você encontrará serão capazes de monitorar / representar graficamente tudo o que você pode lançar, geralmente você pode estendê-los através de simples scripts de shell, programas curtos e outros, além de seus instrumentos e ferramentas incluídos. o SNMP onipresente.