2 discos de SAN falhando durante o mesmo período noturno

2

Temos 2 servidores HP Lefthand SAN em salas de dados separadas. Na semana passada, cada uma das SANs teve 1 falha no disco rígido. Eles estavam em posições diferentes nas SANs. Ambas as salas de dados estão muito bem protegidas de problemas de energia com a UPS.

Alguma idéia do que poderia ter influenciado isso?

Obrigado, Carl

    
por Carl 14.06.2010 / 15:02

6 respostas

0

Várias coisas vêm à mente:

  1. seus discos compartilham o mesmo ambiente. Se houvesse algum evento que enfatizasse os discos, todos os discos naquela SAN estavam sujeitos a ele. A prateleira foi manuseada mais ou menos quando foi montada, entregue, instalada? Já houve um evento superaquecido no datacenter?
  2. Esses discos são do mesmo lote de fabricação? Talvez eles tenham sido feitos quando alguém teve um mau caso das segundas-feiras ?
  3. Quando uma unidade falha, o restante das unidades dessa matriz fica estressado porque o controlador lê / escreve como louco para reconstruir a paridade. Se houvesse outras unidades que já eram marginais, essa mudança repentina nos padrões de utilização pode empurrá-los também sobre a borda. À medida que as unidades aumentam, os tempos de reconstrução aumentam e o problema piora.
por 14.06.2010 / 15:51
1

Parece estranho, mas eles eram discos de reserva?

Eu vi falhas sequenciais (embora não no mesmo dia) em situações em que um hot spare é acionado e precisa ser substituído. Se esse sobressalente estiver ocioso por um tempo, colocá-lo em uso poderá causar problemas já existentes para começar a aparecer. Essa é a minha teoria, pelo menos, e eu estou aderindo a isso! =)

    
por 14.06.2010 / 15:07
1

Parece bastante aleatório para mim, temos pessoas que pagamos para mudar discos, não importa o que fazer / modelo / tipo / velocidade / configuração são discos simplesmente não funcionam em ambientes corporativos em qualquer lugar como o tempo como seus fabricantes fazem. Fique de olho neles.

    
por 14.06.2010 / 15:38
1

Parece um caso de má sorte para mim até agora. 24 discos, dois falham na mesma semana? Pena, mas isso pode acontecer. Especialmente se os discos em questão forem unidades de 7,2K RPM não destinadas a operação 24x7. Não vejo nenhuma unidade de 500 GB nas folhas QuickSpecs dos atuais produtos LeftHand, mas sei que a HP vendeu unidades SATA de 500 GB e 7,2 K, já que tenho muitas delas em um MSA1500.

Se esses são de fato os mesmos que eu tenho, não estou surpreso. Eles vieram de um modelo anterior de unidades SATA que não eram tão confiáveis quanto suas contrapartes SAS / SCSI, por isso mostraram uma taxa de falhas maior aqui. Depois do primeiro ano, porém, as maçãs podres saíram e eu não tive nenhuma falha desde então. Mas eu estava passando por um por mês lá por um tempo. LUNs de 5.5 TB são os maiores que eu sugiro que sejam executados com essas unidades, já que o tempo de reconstrução (como você provavelmente está aprendendo agora) leva muito tempo.

Se eles são realmente unidades SAS de 450 GB e 15K, isso é muito menos provável, mas ainda dentro do campo de possibilidades. Às vezes essas coisas acontecem.

Mais amplamente, eu sei que a HP gosta de vender nós do LeftHand em pares. Presumindo que essas duas unidades foram obtidas ao mesmo tempo, a probabilidade de que todas as unidades sejam de lotes semelhantes é bastante alta. Como Chris S apontou, os lotes ruins acontecem. Como os conjuntos RAID5 de 5,5 TB podem levar uma semana para serem reconstruídos (não há uma SAN LeftHand para usar, mas sei que para matrizes baseadas em MSA leva uma semana), e durante esse tempo as unidades estão sob uma carga muito maior do que normal, pode causar cascatas de falha. No entanto, você disse "na semana passada", o que sugere que eles foram reconstruindo por um tempo agora e estão apenas procurando o alinhamento suspeito de estrelas que causou os fracassos em primeiro lugar. Se eles sobreviveram ao processo de reconstrução, é menos provável que você tenha um lote muito ruim, talvez apenas um pouco ruim. Mas fique de olho nas taxas de falha.

2 em uma semana é um ponto de dados, não uma tendência. Infelizmente,

    
por 14.06.2010 / 17:48
0

Ambos foram comprados ao mesmo tempo? Poderia ser do mesmo lote de HDs e, portanto, compartilhar anomalias de fabricação semelhantes. Se este for o caso, você deve substituir essas unidades assim que possível, antes que qualquer outra falha.

    
por 14.06.2010 / 15:14
0

As falhas de disco nos sistemas de armazenamento são geralmente falhas de disco preventivas. O HDD bios rastreia um número de leitura ou gravação de erros durante um período de tempo (isso pode acontecer sem interrupção do serviço) e quando um limite é ultrapassado, o sistema de armazenamento marca o disco como ruim antes de ser inutilizável (para evitar corrupção de dados). Talvez o seu sistema de armazenamento tenha uma verificação de disco programada para manutenção preventiva. Isso poderia explicar os discos sendo marcados como ruins na mesma época.

    
por 14.06.2010 / 15:55