Problemas no disco rígido / Raid1

1

Estou tendo problemas com os discos rígidos no meu servidor raiz.

Ele está rodando com 2 hdds em um software Raid1.

Depois de ter problemas de desempenho com um banco de dados MySQL grande, que grava via O_DIRECT e innodb_flush_log_at_trx_commit = 0, substituí um dos discos (sda), porque os valores SMART mostraram altas taxas de erro.

Uma semana atrás, houve problemas de desempenho novamente e as mensagens seguintes apareceram no syslog:

Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen
Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in
Sep 25 15:09:41 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY }
Sep 25 15:09:41 server02 kernel: ata1: hard resetting link
Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133
Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0
Sep 25 15:09:41 server02 kernel: ata1: EH complete 

/ dev / sdb3 foi automaticamente desativado pelo mdadm. Em seguida, substituí o segundo disco rígido (sdb) e troquei cabos e portas.

Agora, estou recebendo os mesmos erros novamente:

Oct  2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2: hard resetting link
Oct  2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2: EH complete

E / dev / sdb3 foi desativado novamente.

Alguém tem alguma ideia, o que pode estar errado com o meu servidor?

Obrigado! Christian

    
por Christian Nowak 03.10.2011 / 14:59

1 resposta

1

Após substituir dois HDDs, você novamente terá erros indicando um problema de hardware com um disco. Isso pode significar que você está simplesmente sem sorte, ou que há algum outro problema, que se apresenta como uma falha de disco. Isso poderia ser:

  1. Problema com a placa principal - talvez o controlador SATA esteja com defeito.
  2. Problema com o cabeamento - solto, desgastado, dobrado, etc.
  3. Ambiente - temperatura, vibrações, umidade.
  4. Problema com os drivers de chip SATA.
  5. AC instável.

Você pode reproduzir o problema em uma máquina de teste / desenvolvimento? Existe algo que desencadeia a falha (backups, pico de carga, consulta específica)? O problema é intermitente (você registra alguns erros e, em seguida, o servidor é executado OK) ou persistente (quando ele é exibido, continua aparecendo)?

Pessoalmente, eu não confiaria na máquina e migraria os dados para algum outro servidor enquanto procurava a causa desses erros. 3 falhas de disco em curto espaço de tempo são possíveis (as pessoas ganham loteria às vezes), mas elas não são muito prováveis.

    
por 03.10.2011 / 15:37