Queda de desempenho de E / S imprevisível e massiva no Linux

10

Estou usando o teste Debian sem nenhum problema há ~ 6 anos (estou apenas atualizando regularmente), mas recentemente ele começou a mostrar um comportamento aleatório que pode ser resumido como "Baixo desempenho de E / S que persiste até a reinicialização ".

O problema é que, de repente, todas as leituras e gravações do disco são reduzidas para ~ 5MB / s, o que resulta em leituras e gravações contínuas. Como a taxa é tão baixa, os discos não são mecanicamente desafiados ou estressados, mas tudo fica mais lento até que eu reinicie.

O subsistema de E / S do computador consiste em um SSD Vertex 3 da OCZ e dois HDDs WD Caviar Black. O SSD possui uma parte de leitura pesada do sistema operacional e uma partição no disco rígido contém o restante.

Para diagnosticar o problema, tentei o seguinte sem sucesso:

  • top não mostra nenhuma atividade fugitiva nem na CPU nem no uso de E / S.
  • hdparm retorna classificações de desempenho normais dos discos (eu só verifiquei -t ).
  • smartctl não mostra problemas de desempenho nos discos. Testes longos mostraram que os discos são tão bons quanto novos.

O sistema tem chipset Z77, 16GB de RAM e CPU Intel i7 3770K e as estatísticas não mostram sinais de saturação em RAM, E / S ou CPU, mas eu não tenho experiência para depurar problemas como este (especialmente no kernel ). Qualquer ajuda será apreciada.

Atualização 1:

  • Eu corri (forcei) o fsck em todas as partições como precaução. Todos os FS estão limpos.
  • Por acaso, encontrei uma atualização do BIOS que saiu há um mês & aplicado.
  • Nenhuma partição está preenchida em mais de 50%.

Atualização 2:

O problema não está aparecendo por dois dias. O fsck ou a atualização do BIOS limpou algumas obstruções no sistema. Ainda estou monitorando o problema e encerro a pergunta com uma resposta post-mortem.

Atualização 3:

O problema apenas ressurgiu e eu fiz mais algumas pesquisas. Por favor, veja a resposta.

    
por bayindirh 08.10.2013 / 14:19

2 respostas

10

Consegui reproduzir o problema novamente e foi resultado de um grande cache de disco. Meus caches de disco podem crescer mais de 8GB e parece que alguns aplicativos não gostam disso e a E / S sofre.

Eliminar caches de disco com echo 3 > /proc/sys/vm/drop_caches como root remedia o problema. Atualmente, não sei por que grandes caches de disco causam essa degradação de E / S.

Última atualização: Após mais investigação, descobri que o número de arquivos no cache estava provocando o problema. Ele estava destruindo os discos enquanto tentava enviar muitos arquivos pequenos de volta para o disco. Desde que eu estava usando o sistema por dez anos, eu tomei a iniciativa e reinstalei com o Debian de 64 bits. Agora está funcionando sem problemas. Provavelmente foi um efeito colateral de dez anos de atualização com a descoberta de limites do sistema operacional de 32 bits.

    
por 16.10.2013 / 23:11
2

Há alguma mensagem suspeita em dmesg ?

Mais algumas ferramentas que você pode tentar obter alguns insights sobre os afunilamentos do seu sistema:

  • dstat
  • latencytop
  • sysprof
por 08.10.2013 / 14:26