O fato de que ele congela fisicamente a máquina indica strongmente que isso é um sintoma de um erro de hardware. Eu não esperaria que setores defeituosos causassem a queda de uma máquina, então pode ser algo menos fácil de diagnosticar.
Para ver se são os discos que são o problema, tente ler os arquivos afetados localmente (faça login via SSH e use cat /home/path.to.file > /dev/null
), mas se isso funcionar, isso não significa necessariamente que a superfície do disco está bem e às vezes legível outros não). Se você ainda não o fez, execute as ferramentas de monitoramento do SMART e observe coisas como a contagem de remapeamento do setor subindo - isso indicará que a superfície do disco não está na melhor forma (alguns setores remapeados não são incomuns com unidades massivas modernas, mas muitos indicam um problema sério).
Poderia ser corrupção do sistema de arquivos, mas novamente eu não esperaria que isso travasse completamente a máquina - ou se fosse tão ruim a ponto de travar o driver do sistema de arquivos eu esperaria uma mensagem de kernel panic no console ao invés da máquina parar. Você pode usar o fsck para verificar isso, mas certifique-se de que tudo que você pode ler atualmente seja feito em backup caso a corrupção seja tão ruim que tentar consertar isso torna as coisas piores (isso é raro, mas eu vi isso acontecer especialmente se você usando um sistema de arquivos experimental ou uma versão beta em vez de uma versão experimentada + testada).
Outra coisa para verificar com o congelamento de hardware é que o CPU e RAM estão bem. Eles podem estar com defeito e superaquecer - não tanto que isso cause um problema na operação normal, seja a carga extra imposta pela execução do rsync por algum tempo empurrando algo além da borda. A execução de um teste de memória e teste "burn in" da CPU pode destacar isso se for o problema. Seu controlador de E / S pode ser um suspeito também da mesma maneira, embora eu não tenha certeza de como você faria para testar isso.