HP SmartArray P400i marca uma boa unidade como uma falha, o que posso fazer sobre isso?

1

Eu tenho o servidor HP ProLiant DL360 G5 com o controlador RAID SmartArray P400i. O servidor em si é bem antigo, mas ainda funciona normalmente. O único problema é o controlador RAID, que marca boas unidades como falhas. Acontece com bastante frequência, quase todos os dias. Aqui está a saída típica do utilitário ssacli :

# ssacli ctrl all show config
...
   Array A (SATA, Unused Space: 0  MB)

      logicaldrive 1 (931.5 GB, RAID 1, Interim Recovery Mode)

      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA HDD, 1 TB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA HDD, 1 TB, Failed)

Informação detalhada:

# ssacli ctrl slot=0 pd 1I:1:2 show detail

Smart Array P400i in Slot 0 (Embedded)

   Array A

      physicaldrive 1I:1:2
         Port: 1I
         Box: 1
         Bay: 2
         Status: Failed
         Last Failure Reason: Not ready bad sense
         Drive Type: Data Drive
         Interface Type: SATA
         Size: 1 TB
         Drive exposed to OS: False
         Logical/Physical Block Size: 512/512
         Firmware Revision: SN03
         Serial Number: ...
         WWID: ...
         Model: ATA     ST91000640NS
         SATA NCQ Capable: True
         SATA NCQ Enabled: True
         PHY Count: 1
         PHY Transfer Rate: 1.5Gbps
         Sanitize Erase Supported: False
         Shingled Magnetic Recording Support: None

Após o servidor ser reinicializado, o controlador RAID detecta a unidade novamente, marca como OK e recria a matriz. O array funciona bem até a próxima falha. Eu não tenho idéia sobre o porquê isso está acontecendo. Existem maneiras de resolver este problema sem comprar o novo controlador RAID ou HBA? SoftRAID é aceitável. Atualmente vejo estas opções:

  1. Crie uma configuração semelhante a JBOD com duas unidades lógicas RAID 0, cada uma contendo uma única unidade física, mas não sei se isso ajudará.
  2. Ajuste o controlador RAID para não excluir unidades com falha da matriz, mas não sei como fazer isso.
por h31 11.04.2018 / 21:22

2 respostas

1

Eu acho que o disco é ruim. Você pode verificar isso pelos atributos SMART desta unidade.

Quando o controlador RAID encontra um erro de leitura / gravação / verificação em uma unidade, ele marca essa unidade como FALHA. Neste momento, o inversor detecta esse erro e inicia o procedimento de substituição do setor. Ele aumenta o atual contador de setores pendentes e tenta ler o setor defeituoso com êxito. Após a leitura bem-sucedida de dados do setor defeituoso, o disco grava um em um setor pré-alocado, diminui o contador de setores pendentes e aumenta o contador de setores realocados. Valores diferentes de zero desses contadores SMART mostram que você tem problemas de disco.

Após o procedimento bem-sucedido de realocação do setor, o controlador RAID pode reconstruir a matriz de disco com êxito.

Além disso, o disco possui atributos SMART que mostram erros na transferência de dados por meio do cabo de interface. Um cabo ruim pode apresentar os mesmos sintomas do controlador RAID ações. Mas problemas de disco ocorrem mais frequentemente do que problemas com cabos.

Por favor, leia SMART na Wikipedia

    
por 13.04.2018 / 06:52
0

Parece que encontrei a solução. Atualmente meu servidor tem um tempo de atividade de 4 meses sem problemas. Aqui está o que eu fiz:

  1. Atualizamos o kernel Linux para a versão 4.15, que inclui um novo driver de kernel hpsa para o controlador RAID.
  2. Criada uma partição que não preenche totalmente o disco rígido, ou seja, tem um tamanho de 300 GB em um disco rígido de 1 TB. O raciocínio é que esses controladores RAID não apresentam problemas com unidades pequenas (< 500 GB).
  3. Digitalização de superfície de fundo desativada. Consultar a configuração atual usando o comando ssacli ctrl slot=0 modify surfacescanmode=? . Se for idle , você precisa mudar para disable usando o utilitário ssacli (desculpe, esqueci o comando).
por 23.08.2018 / 17:45