Eu diria que o Monit grátis seria uma ferramenta mais apropriada para testar os limites que você está procurando e dando uma resposta simples. visão geral da saúde do seu sistema.
Fora da caixa, você pode configurar algumas verificações básicas. A sintaxe é muito legível, portanto, uma configuração barebones que verifica a carga do sistema, o uso da memória, a utilização da troca, o uso da CPU e o espaço em disco para vários pontos de montagem e pode enviar um e-mail seria assim:
if loadavg (1min) > 6 then alert
if loadavg (5min) > 5 then alert
if memory usage > 90% then alert
if swap usage > 20% then alert
if cpu usage (user) > 90% then alert
if cpu usage (system) > 75% then alert
if cpu usage (wait) > 75% then alert
check device root with path /
if SPACE usage > 80% then alert
check device var with path /var
if SPACE usage > 80% then alert
check device usr with path /usr
if SPACE usage > 80% then alert
check device tmp with path /tmp
if SPACE usage > 80% then alert
Além disso, eu sei que você está dizendo que você não precisa de ferramentas gráficas, mas pode fazer sentido ter algo que possa acompanhar tendências . Munin é uma boa ferramenta para isso. Há muitos outros, mas vale a pena considerar.