servidor de arquivos lento com valores contraditórios para CPU e CPL no topo

1

Eu tenho um servidor de arquivos (centos 6.3) que abrandou de repente hoje cedo. O cluster que o monta poderia acessar outras montagens do NFS sem um problema, mas o acesso a este era MUITO lento. Logar-se via ssh também foi muito lento (e o console virtual idrac não tinha sinal - talvez um problema diferente).

A execução do iostat -x 5 no servidor não mostrou nada para ser um problema. 'await' era na maior parte 0, às vezes até 2, e% util era na maior parte 0, às vezes até 3, raramente 5. Pelo que entendi isso não indica nenhum problema óbvio?

A execução em cima do servidor não mostrou nada que parecesse incomum para mim, exceto que as médias de CPL estavam na faixa de 14 a 17, enquanto a utilização da CPU estava sempre entre 100 e 200% de 3200% durante os 30 minutos. estava olhando as coisas. sobre a saída está abaixo.

Uma pergunta sobre a CPL que pode estar relacionada a isso: o sistema é hyper-threading, portanto, mostra 32 cpu quando há 16 núcleos físicos (2x8). A CPL aplica-se apenas aos núcleos físicos ou também aos núcleos virtuais de hyper-thread (se esse é o termo)? Um CPL de 14-17 deve ser bom se este último, mas não o primeiro. Mas em ambos os casos, não entendo porque a CPL parece tão diferente da CPU.

Obrigado por qualquer pensamento.

PRC |  sys   10.70s  |  user   0.18s  |  #proc   2846 |  #tslpu     9  |  #zombie    0  |  #exit      6  |
CPU |  sys     107%  |  user      2%  |  irq       0% |  idle   3094%  |  wait      0%  |  curscal   ?%  |
CPL |  avg1   14.86  |  avg5   17.50  |  avg15  17.52 |  csw     4265  |  intr   31460  |  numcpu    32  |
MEM |  tot    31.3G  |  free  128.6M  |  cache  25.2G |  dirty  94.9M  |  buff  165.6M  |  slab    2.1G  |
SWP |  tot     1.0G  |  free  960.8M  |               |                |  vmcom   5.4G  |  vmlim  16.6G  |
LVM |  rt-lv_export  |  busy      0%  |  read       0 |  write     35  |  MBw/s   0.02  |  avio 0.00 ms  |
DSK |           sda  |  busy      0%  |  read       0 |  write     10  |  MBw/s   0.01  |  avio 0.30 ms  |
DSK |           sdb  |  busy      0%  |  read       0 |  write     25  |  MBw/s   0.02  |  avio 0.00 ms  |
DSK |           sdc  |  busy      0%  |  read       0 |  write      9  |  MBw/s   0.00  |  avio 0.00 ms  |
NET |  transport     |  tcpi      25  |  tcpo      22 |  udpi       0  |  udpo       0  |  tcpao      0  |
NET |  network       |  ipi       37  |  ipo       27 |  ipfrw      0  |  deliv     25  |  icmpo      0  |
NET |  pem3      0%  |  pcki     299  |  pcko       0 |  si   16 Kbps  |  so    0 Kbps  |  erro       0  |
NET |  pem1  0%  |  pcki      57  |  pcko      12 |  si    3 Kbps  |  so    1 Kbps  |  erro       0  |
NET |  em1     ----  |  pcki      57  |  pcko      12 |  si    2 Kbps  |  so    1 Kbps  |  erro       0  |

  PID   TID RUID      THR  SYSCPU  USRCPU  VGROW  RGROW   RDDSK  WRDSK ST EXC S CPUNR  CPU CMD         1/3
20539     - root        1   1.09s   0.00s     0K     0K      0K     0K --   - D     7  11% nfsd
20544     - root        1   1.01s   0.00s     0K     0K      0K     0K --   - D     1  10% nfsd
  356     - root        1   0.99s   0.00s     0K     0K      0K     0K --   - D    25  10% kswapd1
20545     - root        1   0.93s   0.00s     0K     0K      0K     0K --   - R     2   9% nfsd
20546     - root        1   0.93s   0.00s     0K     0K      0K     0K --   - D     4   9% nfsd
  355     - root        1   0.90s   0.00s     0K     0K      0K     0K --   - R    22   9% kswapd0
20540     - root        1   0.87s   0.00s     0K     0K      0K     0K --   - D    26   9% nfsd
20541     - root        1   0.86s   0.00s     0K     0K      0K     0K --   - D    30   9% nfsd
 1170     - root        1   0.84s   0.00s     0K     0K      0K     0K --   - D     6   8% cook-news
20542     - root        1   0.83s   0.00s     0K     0K      0K     0K --   - D    22   8% nfsd
20543     - root        1   0.83s   0.00s     0K     0K      0K     0K --   - D     6   8% nfsd
  536     - root        1   0.40s   0.14s     0K     0K      0K     0K --   - R    19   5% atop
 1650     - root        0   0.16s   0.04s     0K     0K       -      - NE   1 E     -   2% <ps>
 5798     - root       47   0.01s   0.00s     0K     0K      0K     4K --   - S    13   0% dsm_om_connsvc
 4944     - root        1   0.01s   0.00s     0K     0K      0K     0K --   - S    13   0% snmpd
  138     - root        1   0.01s   0.00s     0K     0K      0K     0K --   - S     7   0% events/7
  139     
    
por Michael S 26.11.2014 / 18:48

1 resposta

1

A CPL é uma média de carga que reflete o número de encadeamentos disponíveis para execução em uma CPU (ou seja, parte da fila de execução) ou que estão aguardando a E / S do disco. Você parece ter ~ 16 processos que parece estar esperando pelo disco. Essa é a razão pela qual você vê a CPU quase ociosa, ela não tem nada a fazer além de esperar pelo disco.

Eu checaria os discos deste sistema, verificaria o dmesg quanto a erros de disco, atributos smartctl & log, execute também um breve auto-teste. Acho que isso pode ser um problema seu, como disco ler & as velocidades de gravação são muito baixas.

Talvez um ataque esteja em execução no modo degradado ou reconstruído.

    
por 26.11.2014 / 20:30