nvme dropouts do dispositivo - I / O 0 timeout do QID 0, controlador desabilitado

1

Temos 6 servidores Supermicro iguais (ou especificações muito parecidas), Nas últimas duas semanas, um deles recebeu um disco NVMe aleatoriamente devido a:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

Nós tentamos:

  • Trocando o disco
  • Trocando os cabos NVMe
  • Troca do controlador NVMe (placa-mãe)
  • Trocando o backplane
  • Fazendo downgrade do Kernel 4.5.0 para 4.4.2, considerando mudanças recentes no subsistema de armazenamento
  • Atualizando firmwares de disco e placa-mãe
  • Trocando a placa-mãe

Então, é essencialmente um servidor totalmente novo, exceto que não fizemos uma reinstalação - por quê? Porque eu quero entender o problema e se reinstalar correções, nunca saberemos porque está acontecendo nesta máquina e não em nossos outros 5.

  • Nenhum erro SMART ou nvme-cli é relatado na unidade quando está funcionando.
  • Se a unidade for trocada em outra baia, ela funcionará bem e qualquer que seja a unidade substituída nessa baia, eventualmente, acabará / falhará.

  • CentOS 7 (Últimas correções instaladas)

  • Kernel 4.5.0
  • 2x Intel DC3600 NVMe (2,5 "FF)
  • Chipset série Intel Corporation C610 / X99
  • Full lspci -tvv output: link
  • Configuração completa do kernel: link
por s_mcleod 13.04.2016 / 06:45

2 respostas

0

Ligue para o suporte da Supermicro ou use um servidor completamente diferente.

Você já fez mais a solução de problemas do que a maioria e seguiu todas as etapas razoáveis dentro do seu controle.

O equipamento Supermicro é relativamente barato e não oferece o mesmo nível de polimento que um sistema Dell ou HP teria. Então pegue de alguém que tenha visto grandes implantações do Supermicro em escala ... Você pode ter apenas um fracasso.

    
por 14.04.2016 / 09:33
0

Eu tive uma falha semelhante com unidades Intel P4600 (diferente da sua), a decisão da Intel para o nosso caso foi um firmware raro com os itens de ação para substituir as unidades específicas e atualizar o firmware para o mais recente em todos os restantes drives. YMMV.

O erro que você está recebendo significa que a unidade está lá no nível PCIe e até pode ser comunicada com algum nível básico da NVMe, mas não pode concluir a inicialização completa devido a uma declaração interna na unidade (novamente, com base nos resultados de FA para nossos drives, pode ser diferente para você).

    
por 21.11.2018 / 11:29