SLES 10 SP4 (x86_64) - HP Proliant DL380 G4 - Não responde de forma aleatória

4

Tive a infelicidade de atualizar um HP Proliant DL380 G4 do SLES 10 SP2 (i586) para o SLES 10 SP4 (x86_64). Embora a instalação tenha sido concluída sem problemas, o servidor ficou sem resposta após alguns dias de atividade. O servidor responde ao PING, mas o SSH e até o acesso ao console falham. A única maneira de recuperar é inicializar a frio o servidor.

Os syslogs não mostram log de nada quando o servidor não está respondendo. Na pesquisa, pude ver instâncias semelhantes relatadas para uma variedade de tipos de Linux e, geralmente, foi resolvido atualizando o BIOS e / ou o firmware do servidor.

Também tentei acpi = ht e acpi = off em opções de inicialização sem sucesso.

Eu atualizei a versão do BIOS do servidor disponível no site de passaportes HP neste link mas isso não resolveu isso.

Então, tentei atualizar o firmware do controlador de armazenamento de aqui

Eu reiniciei o servidor e aguardo para ver se isso resolve o problema. Quaisquer sugestões / recomendações sobre qual é a causa raiz e como posso corrigi-lo?

Eu consegui encontrar um post que vem bem perto do que estou vendo Ubuntu 12.04 - HP ProLiant DL380 G4 - Carrega Maxes de Saída / Não Responsa

Informação do servidor:

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

> lscpu
Architecture:          x86_64
CPU(s):                4
Thread(s) per core:    2 
Core(s) per socket:    1
CPU socket(s):         2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            15
Model:                 4
Stepping:              1
CPU MHz:               3200.225
L1d cache:             16K
L2 cache:              1024K


> modinfo cciss
filename:       /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license:        GPL
description:    Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author:         Hewlett-Packard Company
srcversion:     737C49390DD1F6FB9BC03F7

>slabtop
 Active / Total Objects (% used)    : 331966 / 339552 (97.8%)
 Active / Total Slabs (% used)      : 20306 / 20315 (100.0%)
 Active / Total Caches (% used)     : 98 / 136 (72.1%)
 Active / Total Size (% used)       : 78133.61K / 79253.95K (98.6%)
 Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K

 OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
 191752 191637  99%    0.09K   4358       44     17432K buffer_head
 44916  44891  99%    0.20K   2364       19      9456K dentry_cache
 35620  35561  99%    0.78K   7124        5     28496K ext3_inode_cache
 15064  15035  99%    0.52K   2152        7      8608K radix_tree_node
  6510   5859  90%    0.18K    310       21      1240K vm_area_struct
  5782   5689  98%    0.06K     98       59       392K size-64
  3840   3747  97%    0.08K     80       48       320K sysfs_dir_cache
  3288   3271  99%    0.61K    548        6      2192K proc_inode_cache
  3015   2259  74%    0.25K    201       15       804K filp
  2304   2043  88%    0.02K     16      144        64K anon_vma
  2304   1911  82%    0.02K     16      144        64K dm_tio
  2208   1899  86%    0.04K     24       92        96K dm_io
  2106   2096  99%    0.58K    351        6      1404K inode_cache
  1710   1633  95%    0.12K     57       30       228K size-128
  1680   1515  90%    0.03K     15      112        60K size-32
  1480   1169  78%    0.09K     37       40       148K journal_head

Qualquer ponteiro seria apreciado.

    
por watman 29.10.2014 / 09:28

1 resposta

4

Eu tinha muitos controladores RAID SCSI HP Smart Array 6400/641 / 6i pendurados de maneira semelhante em 2003-2006 com sistemas Red Hat / CentOS. Você está perdendo o controlador RAID e o sistema de armazenamento subjacente. O I / O trava e até o login do console falha porque o SO não pode ler do disco. A pilha de rede está na memória, então o sistema responde ao ping.

Algumas delas são uma interação de driver. Alguns deles são apenas que esses sistemas não devem ser usados com os sistemas operacionais atualmente. Não há opções além de usar hardware mais moderno ( ou talvez comprar outra unidade por US $ 18 no eBay para teste). Isso não aconteceu com todo o meu servidor durante essa época, mas definitivamente impactou um pouco mais do que outros.

Não há atualizações de firmware de conseqüência, como o a última revisão é de 2008 . O BIOS do sistema também parou de receber atualizações em 2008. Não há suporte para esse problema de armazenamento ou para o hardware do servidor em qualquer caminho.

O DL380 G4 é um servidor de 10 anos com tecnologia antiga (PCI-X, Ultra SCSI, etc.). Você esperaria suporte para um desktop dessa safra?

Veja: HP Proliant DL380 G4 - Esse servidor ainda pode funcionar em 2011?

    
por 29.10.2014 / 09:55