Os mesmos problemas no disco rígido do dmesg em vários servidores

4

Temos algumas essas unidades SuperMicro MicroCloud .

No total, temos 16 servidores (2x8) que todos aleatoriamente transmitem essas mensagens no dmesg:

[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED
[4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out
[4661350.802735]          res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error)
[4661350.802821] ata2.00: status: { DRDY }

Tudo parece bem, mesmo devido aos erros, mas parece muito errado ignorá-los. Isso acontece principalmente durante períodos de alta atividade de disco.

Em um único servidor, ele foi interrompido aleatoriamente, mesmo durante uma atividade de disco alta.

O Google sugere que isso pode ocorrer devido a falhas nos conectores ou nas unidades, mas ocorre em 16 servidores diferentes com diferentes tipos de disco rígido (oito usam unidades WD Black SATA de 7.200 RPM e outros oito usam VelociRaptors de 10000 RPM). / p>

Nós tentamos com dois kernels linux diferentes, 2.6.32 (Debian Squeeze) e 3.2.44 (Debian Wheezy).

O fornecedor do servidor sugere a atualização para o BIOS mais recente, mas já o estamos executando.

Então agora estamos presos :) Alguém tem uma sugestão?

Dmesg completo: link

Atualização: Jim Garrison me indicou um AskUbuntu Question onde eles mencionam chipsets intel com defeito . Agora me preocupo com o fato de sermos afetados por isso, embora já tenha sido descoberto em 2011. (Os servidores foram construídos no Q42012, mas o SuperMicro poderia ter um lote antigo de 2011 - eles fazem suas próprias placas-mãe).

"lspci" me dá isto:

00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07)
00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)

Um artigo de notícias sobre softwares menciona que" rev04 "foi afetado. Devo coletar de "rev 07" no lspci que não somos afetados?

Intel errata de junho de 2013 menciona alguns problemas semelhantes:

Due to a circuit design issue on Intel 6 Series Chipset and Intel C200 Series Chipset, electrical lifetime wear out may affect clock distribution for SATA ports 2-5. This may manifest itself as a functional issue on SATA ports 2-5 over time.

Os chipsets são nomeados como "Intel® Q67 Chipset", "Intel® Q65 Chipset", etc. na errata. Como posso descobrir que tipo de chipset (chamado assim) eu tenho, a partir de um prompt de comando do Debian?

Atualização: Agora localizei a errata correta para o chipset , eu acho. (É BD82C602J). Nada muito sério lá, parece.

    
por sune 10.07.2013 / 00:57

1 resposta

2

Certamente parece um problema de controlador para mim. Espero que você tenha alguma garantia restante. É um erro de barramento, não uma unidade sem resposta, como é geralmente o caso das placas do controlador de unidade com defeito e dos cabos marginais (ou backplanes); parece que é a placa de sistema.

Você também pode tentar passar o BIOS (mesmo com a mesma versão) para descartar algum tipo de corrupção do BIOS.

Eu acredito que o resultado disso é apenas um reset e continuar, então você pode não ter nada com o que se preocupar, embora isso tenha um impacto negativo no desempenho. Pode também deteriorar-se ao longo do tempo.

    
por 10.07.2013 / 02:16