Na minha experiência (20 anos em servidores operacionais, deve ter lidado com cerca de 5.000 discos em todos os servidores que eu lidei) o SMART é útil, mas não é uma panacéia.
Se você receber erros do SMART, substitua o disco o mais rápido possível. As chances são muito altas que, com 4-8 semanas, o disco terá sérios problemas. (O estudo do Google mencionado com freqüência a esse respeito se correlaciona muito bem com minha experiência pessoal.) Normalmente você tem uma semana ou 2 antes que o disco se torne realmente problemático.
Se você não receber nenhum erro SMART, o disco ainda poderá falhar sem qualquer aviso, embora isso seja muito raro nos servidores. Eu vejo pode ser 3 ou 4 casos por ano. Enquanto substituímos unidades por causa de erros SMART em cerca de 25 / mês.
Isso pode fazer com que os discos do servidor geralmente façam parte de um array de raid e vejam um padrão contínuo de leitura / gravação em todo o disco. Isso faz com que cada parte do disco seja "exercitada" (e verificada) regularmente.
A maior chance de falha de um disco (sem aviso prévio) está na inicialização se um servidor tiver sido substituído por algum tempo após ter sido executado continuamente por meses / anos.
Em equipamentos de consumo (sem servidor, notebook / desktop), tenho visto muitos discos com erros de leitura que, de alguma forma, não acabam em dados SMART, mesmo que o Windows registre esses erros no log de eventos. (A SMART registrou apenas depois de um chkdsk completo do Windows.)
Isso me leva a acreditar que, em muitos discos de consumo, os limites do SMART são muito baixos. Isso pode ser intencional para manter os números de RMA baixos neste negócio feroz.
Muitos consumidores não notarão o bloqueio ocasional ocasional até que seja tarde demais. (Quantos consumidores sabem onde encontrar o log de eventos? Esse é o único lugar onde você pode ver erros de disco no Windows.)
Na minha experiência, se um disco do consumidor tiver problemas (SMART ou outro), copie seus dados e substitua-os imediatamente. No momento em que dá esses erros já está morto.