Inicialmente, reconheci o problema quando queria colocar meu disco rígido e copiar um arquivo de 100 GB. Enquanto isso, eu tentei muitas coisas e, basicamente, estou vendo que muitas cópias de dados causam falhas no sistema. O seguinte script com alguns arquivos na pasta atemp1, totalizando cerca de 1 GB, é usado para mostrar o problema:
while (true);
do
cnt=$(($cnt+1))
echo $cnt cp >> cnt.log
cp -dupR atemp1/* atemp2/
top -b -n 1 | head -n 5 >> cnt.log
echo $cnt rm >> cnt.log
rm atemp2/*
done
Portanto, o script não faz nada, sempre copiando o mesmo conteúdo. Observando algumas linhas do arquivo de log, o resultado é o seguinte:
%Cpu(s): 3.9 us, 20.5 sy, 0.0 ni, 54.5 id, 20.0 wa, 0.0 hi, 0.6 si, 0.6 st
%Cpu(s): 3.3 us, 23.5 sy, 0.0 ni, 44.8 id, 27.0 wa, 0.0 hi, 0.5 si, 1.0 st
%Cpu(s): 2.2 us, 29.4 sy, 0.0 ni, 26.6 id, 40.0 wa, 0.0 hi, 0.3 si, 1.6 st
%Cpu(s): 2.0 us, 30.3 sy, 0.0 ni, 23.8 id, 42.0 wa, 0.0 hi, 0.3 si, 1.7 st
%Cpu(s): 1.9 us, 30.7 sy, 0.0 ni, 22.4 id, 43.0 wa, 0.0 hi, 0.2 si, 1.7 st
%Cpu(s): 1.8 us, 31.2 sy, 0.0 ni, 20.9 id, 44.0 wa, 0.0 hi, 0.2 si, 1.8 st
%Cpu(s): 1.3 us, 33.4 sy, 0.0 ni, 13.3 id, 50.0 wa, 0.0 hi, 0.2 si, 2.0 st
%Cpu(s): 1.0 us, 34.7 sy, 0.0 ni, 8.9 id, 53.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 1.0 us, 34.9 sy, 0.0 ni, 7.9 id, 54.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.9 us, 35.0 sy, 0.0 ni, 6.8 id, 55.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.9 us, 35.3 sy, 0.0 ni, 5.5 id, 56.0 wa, 0.0 hi, 0.1 si, 2.2 st
%Cpu(s): 0.7 us, 36.7 sy, 0.0 ni, 3.2 id, 57.0 wa, 0.0 hi, 0.1 si, 2.3 st
Então, o wa continua subindo continuamente até o sistema parar. Na verdade, observando o topo em um terminal paralelo, vejo que wa sobe para 99.7 até falhar. Não há indicação em nenhum arquivo de log do sistema enquanto isso acontece.
Finalmente, estou usando uma invasão de software, ext4 e LVM. O HDD tem 4 TB cada. O LVM é de 500 GB. À medida que os arquivos são apagados e depois copiados novamente, presumo que sempre a mesma parte HDD é usada e que não é setor de defeitos. - Escusado será dizer que já fiz essas verificações.
Alguém tem alguma pista sobre esse problema. É um problema no kernel?