Ubuntu 16.04 LTS - multiplos ou grandes dados aumentam io esperar até que os blocos do sistema

1

Inicialmente, reconheci o problema quando queria colocar meu disco rígido e copiar um arquivo de 100 GB. Enquanto isso, eu tentei muitas coisas e, basicamente, estou vendo que muitas cópias de dados causam falhas no sistema. O seguinte script com alguns arquivos na pasta atemp1, totalizando cerca de 1 GB, é usado para mostrar o problema:

    while (true);
    do
            cnt=$(($cnt+1))
            echo $cnt cp >> cnt.log
            cp -dupR atemp1/* atemp2/
            top -b -n 1 | head -n 5 >> cnt.log
            echo $cnt rm >> cnt.log
            rm atemp2/*
    done

Portanto, o script não faz nada, sempre copiando o mesmo conteúdo. Observando algumas linhas do arquivo de log, o resultado é o seguinte:

%Cpu(s):  3.9 us, 20.5 sy,  0.0 ni, 54.5 id, 20.0 wa,  0.0 hi,  0.6 si,  0.6 st
%Cpu(s):  3.3 us, 23.5 sy,  0.0 ni, 44.8 id, 27.0 wa,  0.0 hi,  0.5 si,  1.0 st
%Cpu(s):  2.2 us, 29.4 sy,  0.0 ni, 26.6 id, 40.0 wa,  0.0 hi,  0.3 si,  1.6 st
%Cpu(s):  2.0 us, 30.3 sy,  0.0 ni, 23.8 id, 42.0 wa,  0.0 hi,  0.3 si,  1.7 st
%Cpu(s):  1.9 us, 30.7 sy,  0.0 ni, 22.4 id, 43.0 wa,  0.0 hi,  0.2 si,  1.7 st
%Cpu(s):  1.8 us, 31.2 sy,  0.0 ni, 20.9 id, 44.0 wa,  0.0 hi,  0.2 si,  1.8 st
%Cpu(s):  1.3 us, 33.4 sy,  0.0 ni, 13.3 id, 50.0 wa,  0.0 hi,  0.2 si,  2.0 st
%Cpu(s):  1.0 us, 34.7 sy,  0.0 ni,  8.9 id, 53.0 wa,  0.0 hi,  0.1 si,  2.2 st
%Cpu(s):  1.0 us, 34.9 sy,  0.0 ni,  7.9 id, 54.0 wa,  0.0 hi,  0.1 si,  2.2 st
%Cpu(s):  0.9 us, 35.0 sy,  0.0 ni,  6.8 id, 55.0 wa,  0.0 hi,  0.1 si,  2.2 st
%Cpu(s):  0.9 us, 35.3 sy,  0.0 ni,  5.5 id, 56.0 wa,  0.0 hi,  0.1 si,  2.2 st
%Cpu(s):  0.7 us, 36.7 sy,  0.0 ni,  3.2 id, 57.0 wa,  0.0 hi,  0.1 si,  2.3 st

Então, o wa continua subindo continuamente até o sistema parar. Na verdade, observando o topo em um terminal paralelo, vejo que wa sobe para 99.7 até falhar. Não há indicação em nenhum arquivo de log do sistema enquanto isso acontece. Finalmente, estou usando uma invasão de software, ext4 e LVM. O HDD tem 4 TB cada. O LVM é de 500 GB. À medida que os arquivos são apagados e depois copiados novamente, presumo que sempre a mesma parte HDD é usada e que não é setor de defeitos. - Escusado será dizer que já fiz essas verificações. Alguém tem alguma pista sobre esse problema. É um problema no kernel?

    
por Joe 06.09.2016 / 21:38

2 respostas

1

O IOWait é uma métrica de CPU, medindo a porcentagem de tempo que a CPU está ociosa, mas aguardando a conclusão de uma E / S. Estranhamente - É possível ter um sistema saudável com quase 100% de iowait, ou ter um gargalo de disco com 0% de iowait. Como o seu sistema não está fazendo nada além de E / S repetitiva com o seu script, não é surpreendente ver o wa aproximar-se de 100%. Isso em si não é problema seu. Desde que você não está recebendo quaisquer indicações no syslog você deve executar um memtest Veja 1 e 2 e então verifique o status inteligente nas unidades em questão.

Você também pode ter um dado desonesto ou um cabo de alimentação indo para a (s) unidade (s) em uso.

Outras leituras: link

    
por Elder Geek 06.09.2016 / 22:19
0

Bem, após algum tempo significativo de testes, eu finalmente troco minha placa-mãe 200 ++ Euro (com CPU) com uma & lt; 100 Euro e ela funciona sem problemas. Como efeito colateral também as placas ethernet recebem números legais (enp1s0 e enp2s0) ao invés de ens3 e rename2 antes. Escusado será dizer que a placa-mãe antiga, por vezes, mudou a nomenclatura das placas ethernet, o que foi um desastre, que no entanto poderia resolver com algumas configurações de parâmetro para a inicialização da porta ethernet. - Eu não quero divulgar o nome da placa-mãe, mas se você tiver problemas semelhantes, entre em contato comigo.

    
por Joe 08.10.2016 / 07:01