once in a while after a reboot I found fsck would fail on OS disk and booting becoming impossible on many of my servers.
Você está fazendo reinicializações / desligamentos graciosos nesses sistemas? Se você estiver fazendo isso (ou seja, se os sistemas de arquivos ficarem desmontados) e estiver ainda vendo a corrupção, é provável que o armazenamento subjacente tenha problemas.
Qual sistema de arquivos você está usando? Espero que você esteja usando um sistema de arquivos com journaling? Com sistemas de arquivos registrados, mesmo se eles forem reduzidos (o que significa que o servidor será desativado antes de uma desmontagem limpa), a corrupção em grande escala é muito pouco provável.
1.regular scheduled fsck on disks
Isso não vai doer, mas também não é tudo o que é necessário se o seu hardware for bom.
- use raid 5/6
O RAID não fará nada por você. O RAID protege contra falhas de hardware, e não para falhas no sistema de arquivos.