Temos algumas essas unidades SuperMicro MicroCloud .
No total, temos 16 servidores (2x8) que todos aleatoriamente transmitem essas mensagens no dmesg:
[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED
[4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out
[4661350.802735] res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error)
[4661350.802821] ata2.00: status: { DRDY }
Tudo parece bem, mesmo devido aos erros, mas parece muito errado ignorá-los. Isso acontece principalmente durante períodos de alta atividade de disco.
Em um único servidor, ele foi interrompido aleatoriamente, mesmo durante uma atividade de disco alta.
O Google sugere que isso pode ocorrer devido a falhas nos conectores ou nas unidades, mas ocorre em 16 servidores diferentes com diferentes tipos de disco rígido (oito usam unidades WD Black SATA de 7.200 RPM e outros oito usam VelociRaptors de 10000 RPM). / p>
Nós tentamos com dois kernels linux diferentes, 2.6.32 (Debian Squeeze) e 3.2.44 (Debian Wheezy).
O fornecedor do servidor sugere a atualização para o BIOS mais recente, mas já o estamos executando.
Então agora estamos presos :) Alguém tem uma sugestão?
Dmesg completo: link
Atualização: Jim Garrison me indicou um AskUbuntu Question onde eles mencionam chipsets intel com defeito . Agora me preocupo com o fato de sermos afetados por isso, embora já tenha sido descoberto em 2011. (Os servidores foram construídos no Q42012, mas o SuperMicro poderia ter um lote antigo de 2011 - eles fazem suas próprias placas-mãe).
"lspci" me dá isto:
00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07)
00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)
Um artigo de notícias sobre softwares menciona que" rev04 "foi afetado. Devo coletar de "rev 07" no lspci que não somos afetados?
Intel errata de junho de 2013 menciona alguns problemas semelhantes:
Due to a circuit design issue on Intel 6 Series Chipset and Intel C200 Series Chipset, electrical lifetime wear out may affect clock distribution for SATA ports 2-5. This may manifest itself as a functional issue on SATA ports 2-5 over time.
Os chipsets são nomeados como "Intel® Q67 Chipset", "Intel® Q65 Chipset", etc. na errata. Como posso descobrir que tipo de chipset (chamado assim) eu tenho, a partir de um prompt de comando do Debian?
Atualização: Agora localizei a errata correta para o chipset , eu acho. (É BD82C602J). Nada muito sério lá, parece.