Tempo de sistema de alta CPU de natureza desconhecida

1

Ambiente:
Placa para servidor Intel S2600GZ
2 x processador Intel Xeon E5-2620
RAM de 128 GB DDR3
Controladora Intel RAID RS25DB080 (LSI SAS2208) com quatro discos SATA ST2000NM0033-9ZM175
Ubuntu 12.04.5 LTS / Linux 3.11.0-26-genérico x86_64

Temos um volume RAID10 de hardware de 4 TB construído no controlador acima mencionado e um sistema operacional Ubuntu Server instalado nele. Este servidor é um "hot standby" sob uma carga menor (tijolo de réplica GlusterFS moderadamente ativo e algumas VMs KVM / qemu de backup).

Quando a carga do disco aumenta (algumas VMs capturam a função principal, são reiniciadas ou a atividade de volume do GlusterFS aumenta), às vezes, obtemos uma explosão de tempo do sistema da CPU e valores de carga média alta. Nem htop nem iotop revelam o culpado. os valores irq e softirq são normais. Normalmente, tentamos diminuir a carga de disco e, eventualmente, o tempo do sistema da CPU lentamente se normaliza. Mas só até que tudo aconteça novamente.

Na verdade, suspeitamos do subsistema de armazenamento , mas não conseguimos descobrir exatamente o que está com defeito. MegaCli -PDList -aALL não relata problemas com discos, MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALL não relata erros típicos, o estado do volume é sempre optimal . smartctl também reporta não S.M.A.R.T. problemas com qualquer um dos discos rígidos. A situação continua reaparecendo por mais de seis meses, nenhum dos relatórios descritos acima havia mudado - todos os sistemas parecem estar saudáveis.

Então, aqui estão as perguntas. Existe qualquer pequena chance de que os problemas descritos possam ser causados pelo controlador RAID defeituoso? Ou é mais provável que um dos discos esteja a morrer e ambos os seus S.M.A.R.T. subsistema e o firmware do controlador misteriosamente não pode detectá-lo? Como poderíamos identificar o disco no último caso? Ou como poderíamos confirmar que é culpa do controlador, de modo que substituí-lo seria garantido? Talvez alguma outra sugestão?

    
por Jacob Becker 20.11.2015 / 10:20

1 resposta

1

Realmente ????

Eu tenho o mesmo problema 2 anos por 2 servidores, então eu não confiei em usar o controlador raid interno para isso e depois de uma semana eu escolhi e reinstalei ambos usando software raid (você está sempre seguro). Após 2 anos não há problema com que eles funcionem perfeitamente. É claro que meu cliente gastou muito dinheiro por nada, mas eu não estava de acordo com ele sobre a escolha desde o começo que eu usei para trabalhar com outros fornecedores de hardware.

dê uma olhada ..

dmidecode -t 2

SMBIOS 2.6 present.

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
Manufacturer: Intel Corporation
Product Name: S2600GZ
Version: G11481-354
Serial Number: QSGR34501185
Asset Tag: ....................
Features:
    Board is a hosting board
    Board is replaceable
Location In Chassis: To be filled by O.E.M.
Chassis Handle: 0x0003
Type: Motherboard
Contained Object Handles: 0
    
por 20.11.2015 / 11:19

Tags