ProLiant DL180 G6 com Smart Array P410 falha na unidade lógica (continua falhando e precisando ser reconstruída)

3

Eu tenho um problema com um monte de DL180, cada um com matrizes inteligentes P410 com 2 unidades lógicas, uma é para o sistema de arquivos raiz e outra é um sistema de arquivos de 10 TB que é exportado pelo nfs.

As caixas são principalmente servidores nfs e são frequentemente maximizadas e são o gargalo na cadeia de processamento.

De vez em quando, uma dessas unidades lógicas de 10 TB falha e precisa ser recriada. isso acontece uma vez por mês e é uma dor.

A mensagem é "Mensagem: Esta unidade lógica falhou e não pode ser usada. Todos os dados nesta unidade lógica foram perdidos."

Nós tentamos atualizar o firmware na matriz de disco, e o módulo do kernel, e vários tipos de linux foram usados para o SO host, debian, CentOS, e xfs e ext3 foram testados como tipos de sistema de arquivos. No entanto, as unidades lógicas ainda precisam ser reconstruídas regularmente a partir de backups.

Anexei uma saída de diagnóstico hpacucli para uma das unidades com falha. link

alguns itens de saída interessantes;

Smart Array P410 no slot 1: identifique o controlador    Revisão de Firmware RAM 2.00    ROM Firmware Revision 2.00

Alguma sugestão sobre o que pode ser o problema, ou como eu poderia instrumentalizar esses arrays / discos para ter uma idéia do que está causando falha no disco?

# cat output.txt  | grep -B 2 'Drive Firmware Rev'
   Drive Model                          ATA     GB1000EAMYC     
   Drive Serial Number                  WMATV2509266        
   Drive Firmware Revision              HPG2    
--
   Drive Model                          ATA     GB1000EAMYC     
   Drive Serial Number                  WMATV1739564        
   Drive Firmware Revision              HPG2    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ456MN            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ45RS3            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ460P0            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ454YN            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ4664M            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ457M9            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ46Q9E            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ4630X            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ454PD            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          ATA     GB1000EAFJL     
   Drive Serial Number                  9QJ45Z0Y            
   Drive Firmware Revision              HPG8    
--
   Drive Model                          HP      DF0146B8052     
   Drive Serial Number                  3QN1KS7H00009949SQ4M
   Drive Firmware Revision              HPD5
--
   Drive Model                          HP      DF0146B8052     
   Drive Serial Number                  3QN1KNFS00009949UX4F
   Drive Firmware Revision              HPD5
    
por Tom H 31.08.2010 / 20:03

2 respostas

1

Tivemos um problema semelhante com a falha de unidades e um artigo da HP KB indicou que o firmware da unidade era um problema. A atualização do firmware deve resolver esse problema. Não foi possível abrir sua postagem para ver se ela listou as versões de firmware do driver.

    
por 31.08.2010 / 20:23
1

Os discos da HP ou de algum outro fabricante?

É possível que os discos da HP tenham firmware especialmente personalizado e, se seus discos não forem da HP que executam esse firmware personalizado, o controlador RAID pode estar soltando-os da matriz RAID por vários motivos.

Se esse for o caso (discos que não são da HP), não tenho certeza se você encontrará uma resposta definitiva (ou, infelizmente, uma solução), pois não é possível prever com segurança como os discos agirão nesse controlador RAID e a HP não terá nada a ver com isso.

    
por 31.08.2010 / 20:34