CentOS 6.4 lock-up… nenhuma explicação

2

Eu tenho um servidor CentOS 6.4 em uma caixa antiga (HP ProLiant ML350 G4) que eu instalei recentemente e ele tem até menos de 24 horas. Ele tem 6 unidades de 10 GB SCSI de 10 GB em RAID 1 + 0 que também são novos e nenhum sinal de falha de unidade ou qualquer tipo de avisos de hardware. Ainda assim, aleatoriamente isso acontecerá:

Quando isso ocorrer, não consigo fazer login (isso ocorre no prompt de login) e o SSH não está respondendo. O ping está respondendo, mas, caso contrário, a caixa está trancada. Note que uma reinicialização resolve o problema por um curto período de tempo, mas isso ocorreu pelo menos 3 vezes diferentes no Debian 6 do CentOS 6.4 e , ambas instalações limpas.

Alguém tem alguma ideia?

Edit: Logs após o fato não mostram nada (nem mesmo as mensagens mencionadas).

    
por Nathan C 11.06.2013 / 21:55

1 resposta

2

Firmware no equipamento da HP é sempre importante. Os controladores Smart Array 6400 e 641/642 daquela época (2003-2005) costumavam congelar e fazer todo tipo de coisas divertidas em certas situações. Atualize o firmware para o mais recente.

No lado do Linux, o driver de dispositivo de bloco CCISS está no kernel há séculos. É tipicamente estável. Mas existem algumas outras considerações sobre o EL6. Ajuste seu planejador de E / S ou use o utilitário tuned-adm . Certifique-se de ter um cache de bateria no controlador se estiver fazendo alguma atividade pesada de gravação. E execute uma verificação de status de integridade no controlador com o comando hpacucli ctrl all show config detail . Apenas certifique-se de que não há discos em um estado funky ou pré-falhado.

    
por 12.06.2013 / 14:56