DL180 G6 - ESXI 6.0 - P410 - Acesso perdido ao volume Problema

3

Temos um servidor DL180 G6 com uma placa RAID P410. O servidor tem as seguintes três matrizes RAID.

4x2TB - RAID 10

4x2TB - RAID 10

2x2TB - RAID 1

Os HDs de 2x2TB são configurados como hot spares para os três arrays.

A seguir, a saída relevante do ESXCLI

Smart Array P410 no slot 1

Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60  min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None

matriz A (SATA, espaço não utilizado: 0 MB)

  logicaldrive 1 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
  physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
  physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
  physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

matriz B (SATA, espaço não utilizado: 0 MB)

  logicaldrive 2 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
  physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
  physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
  physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

array C (SATA, espaço não utilizado: 0 MB)

  logicaldrive 3 (1.8 TB, RAID 1, OK)

  physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
  physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

Agora, no ESXI, estamos recebendo os seguintes erros de tempos em tempos.

Lost access to volume 5456cb3e-4fbdb59c-a37a- d8d385644ec0 (datastore2) due to connectivity issues. Recovery attempt is in progress

Tenha em mente que ele está afetando todos os três arrays no mesmo horário exato e, em alguns segundos, todos os três arrays se recuperam. Conforme o entendimento, todas as unidades estão conectadas a uma única porta na placa RAID P410. Você acha que o uso de ambas as portas poderia melhorar o desempenho e possivelmente remover esse problema recorrente?

Nós tentamos todas as soluções de software neste momento, incluindo a atualização do firmware (atualizado para 6.64). Quais podem ser as outras opções?

Atualização 1

As duas unidades sobressalentes foram configuradas como sobressalentes para todos os três arrays, conforme descrito acima. Eu removi as peças de todos os arrays por cerca de 15 minutos e os erros pararam. Agora eu configurei o primeiro sobressalente para o primeiro array e o segundo para o segundo array para ver se o erro aparece novamente.

Atualização 2

Recolocar as peças de reposição fez com que o erro retornasse e está afetando todas as três matrizes. Então, estou removendo as peças de reposição uma a uma para solucionar ainda mais esse problema. Este é provavelmente um problema conhecido descrito aqui: link . Dedos cruzados.

    
por Nasoo 07.05.2016 / 19:16

2 respostas

2

As duas atualizações postadas na pergunta e a solução de problemas adicionais nos levam à resposta real para o problema. Descobrimos que estava relacionado ao driver no ESXI para o cartão de invasão P410. Nós rebaixamos para a versão .60 do driver disponível no link e o problema era resolvido.

Tenha em mente que nenhum dos drivers recentes funciona, incluindo a versão .114, .116 e o recém-lançado .118. Portanto, esta é a única solução de software para o problema, a menos que seu problema esteja relacionado ao hardware, conforme descrito pelo usuário @ewwhite.

Lembre-se de que esse problema ocorre apenas se você estiver usando unidades sobressalentes com uma placa P410 em um servidor DL180G6. Eu também vi posts que ocorre com outros servidores HP também, então você pode tentar a versão .60 do driver no servidor para ver se ele resolve o problema.

Enquanto enfrenta esse problema, você também pode ver picos periódicos na latência do disco sem qualquer carga de leitura / gravação correspondente em seu servidor. Isso é melhor explicado por meio da seguinte imagem:

Na imagem acima, os pontos vermelhos indicam os pontos periódicos enquanto o sobressalente foi anexado. Os pontos verdes denotam o período enquanto o sobressalente estava sendo removido.

Como você pode ver na figura acima, os picos de latência não estavam associados a nenhum carregamento de leitura / gravação correspondente e eram periódicos. No nosso caso, isso acontecia exatamente com cinco minutos de intervalo. Assim que o sobressalente foi removido, os picos pararam.

Para fazer o downgrade para a versão .60 do driver, coloque sua máquina no modo de manutenção após desligar as VMs e emitir os seguintes comandos

cd /tmp
wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib

Depois disso, reinicie seu servidor. Espero que isso ajude alguém. Eu atualizarei esta resposta quando a HP lançar uma versão estável do driver HPSA para o P410 que não causa esse problema com unidades sobressalentes.

    
por 09.05.2016 / 14:36
1

Este é provavelmente um problema de backplane ou expansor de backplane. Há uma pequena chance de que possa ser cabo. E possivelmente controlador RAID.

O DL180 G6 que você está usando é provavelmente uma unidade de 3,5-bay de 12 "e está conectado ao Smart Array P410 através de um único cabo SAS SFF-8087 de 4 pistas.

Atualizar o firmware foi a primeira coisa que você deveria ter feito. Você já teve o mesmo problema desde a atualização do firmware do controlador? Você também pode querer fazer o firmware dos discos para uma boa medida.

Mas, ao ver o design desse servidor depender totalmente do backplane SAS e do fato de que todos os discos são afetados ao mesmo tempo, você está analisando um problema de conexão que provavelmente exigirá manutenção ou substituição.

    
por 07.05.2016 / 19:22