nvme dropouts do dispositivo - I / O 0 timeout do QID 0, controlador desabilitado

Question

nvme dropouts do dispositivo - I / O 0 timeout do QID 0, controlador desabilitado

#1 resposta do (0 votos)
#2 resposta do (0 votos)

1

Temos 6 servidores Supermicro iguais (ou especificações muito parecidas), Nas últimas duas semanas, um deles recebeu um disco NVMe aleatoriamente devido a:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

Nós tentamos:

Trocando o disco
Trocando os cabos NVMe
Troca do controlador NVMe (placa-mãe)
Trocando o backplane
Fazendo downgrade do Kernel 4.5.0 para 4.4.2, considerando mudanças recentes no subsistema de armazenamento
Atualizando firmwares de disco e placa-mãe
Trocando a placa-mãe

Então, é essencialmente um servidor totalmente novo, exceto que não fizemos uma reinstalação - por quê? Porque eu quero entender o problema e se reinstalar correções, nunca saberemos porque está acontecendo nesta máquina e não em nossos outros 5.

Nenhum erro SMART ou nvme-cli é relatado na unidade quando está funcionando.
Se a unidade for trocada em outra baia, ela funcionará bem e qualquer que seja a unidade substituída nessa baia, eventualmente, acabará / falhará.
CentOS 7 (Últimas correções instaladas)
Kernel 4.5.0
2x Intel DC3600 NVMe (2,5 "FF)
Chipset série Intel Corporation C610 / X99
Full lspci -tvv output: link
Configuração completa do kernel: link

kernel intel nvme centos supermicro

por s_mcleod 13.04.2016 / 04:45

2 respostas

Tags kernel intel nvme centos supermicro

WS2012, erros de backup do VSS SSH '-b' em PuTTY / KiTTY

score 0 · Answer 1

Ligue para o suporte da Supermicro ou use um servidor completamente diferente.

Você já fez mais a solução de problemas do que a maioria e seguiu todas as etapas razoáveis dentro do seu controle.

O equipamento Supermicro é relativamente barato e não oferece o mesmo nível de polimento que um sistema Dell ou HP teria. Então pegue de alguém que tenha visto grandes implantações do Supermicro em escala ... Você pode ter apenas um fracasso.

score 0 · Answer 2

Eu tive uma falha semelhante com unidades Intel P4600 (diferente da sua), a decisão da Intel para o nosso caso foi um firmware raro com os itens de ação para substituir as unidades específicas e atualizar o firmware para o mais recente em todos os restantes drives. YMMV.

O erro que você está recebendo significa que a unidade está lá no nível PCIe e até pode ser comunicada com algum nível básico da NVMe, mas não pode concluir a inicialização completa devido a uma declaração interna na unidade (novamente, com base nos resultados de FA para nossos drives, pode ser diferente para você).