Eu uso Reallocated_Sector_Ct para ver quando os discos estão morrendo. Isso mostra o número de blocos que o firmware de disco decidiu que não poderia mais ser usado, e um número diferente de zero indica que a superfície foi danificada e ocorreu perda de dados e, quando ela se torna diferente de zero, ela tende a aumentar. Spin_Retry_Count também é útil, um número diferente de zero significa que o disco teve que tentar girar novamente, possivelmente indicando uma falha iminente da unidade para ser iniciada. CRC_ERROR_COUNT está relacionado a falhas durante a comunicação com o controlador de disco, não erros internos à unidade e pode indicar problemas com o cabo ou com o controlador, e não com o disco. Seek_Error_Rate não pode ser interpretado de forma confiável.
Quanto ao monitoramento dos discos, o Smartmontools é fornecido com smartd
, um daemon que pode ser executado em segundo plano e consultar periodicamente os dados do SMART.