Um dos nossos servidores SuperMicro com um controlador RAID LSI 2308 integrado tem tido problemas com o nosso principal conjunto RAID10, que consiste em 4 unidades SSD Seagate 600 PRO (nos slots 0,1,2,3).
Começou com uma verificação de consistência que resultou em um grande número dos seguintes erros:
Controller ID: 0 Consistency Check detected uncorrectable multiple medium errors: ( PD -:-:255 Location 0x2048421 VD 1)
Esta verificação de consistência acabou falhando. Decidi então que o array não era mais confiável, então refiz o array. Eu criei primeiramente uma imagem da matriz usando o ddrescue. Infelizmente, ocorreu uma pequena perda de dados, mas a maioria dos dados foi ok.
Eu verifiquei todas as unidades usando o SeaTools. Todos os quatro passaram em todos os testes, então achei que eles deveriam estar ok. Aproveitei essa oportunidade para atualizar o firmware no controlador e nas unidades. Depois de excluir o VD e recriar um novo array RAID 10, copiei a imagem do ddrescue de volta para o drive sem problemas. O sistema arrancou bem e tudo parecia bem. Depois de aguardar a sincronização da matriz, executei outra verificação de consistência e, novamente, ela resultou em vários erros médios incorrigíveis.
Concluí que um ou mais dos discos rígidos devem estar com defeito, então comprei dois novos SSDs samsung (de tamanho maior) e criei um novo dispositivo RAID1 que consiste apenas nessas duas novas unidades. Eu usei slots diferentes como precaução extra (slot 6,7). Infelizmente, depois de copiar os dados de volta e sincronizar a matriz, uma verificação de consistência ainda gera vários erros médios incorrigíveis, embora haja apenas dois setores defeituosos desta vez.
Observe que o número de setores defeituosos e a localização dos setores defeituosos foram alterados nas duas vezes em que eu refiz o array.
O servidor está rodando aparentemente ok agora e eu verifiquei os dois setores defeituosos e eles não contêm arquivos no momento. A matriz ainda pode não ser confiável e estou sem ideias. O que mais posso tentar corrigir esse problema?