Há muito o que monitorar no subsistema de disco:
- Funcionamento do sistema de arquivos: chkdisk ou fsdisk (o sistema de arquivos não é o mesmo que a integridade do array físico - mas, é claro, problemas físicos geralmente levam à corrupção do FS).
- RAID Health: Inclui o estado de qualquer configuração de raid e a bateria no controlador de raid. Por exemplo, um disco saiu da matriz, está sendo reconstruído?
- Falha de disco preditiva para cada disco: consulte S.M.A.R.T
- Temperatura de operação (não específica para discos, mas importante).
- Atualizado em firmware / drivers
Você provavelmente também deseja monitorar o desempenho do subsistema de disco:
- Tempo médio gasto de operações de leitura / gravação
- A quantidade de leituras / gravações
- Fila de operações de disco
Um sistema como o Nagios tem vários plugins e pode alertar com base nessas falhas. Muitas vezes você precisa de um utilitário como o Dell openmanage ou MegaCLI para monitorar o status do RAID via SNMP. As ferramentas também podem alertá-lo normalmente, mas isso não é centralizado.