Os controladores RAID geralmente têm problemas de compatibilidade de marca de unidade SATA?

22

Nós lutamos com o controlador RAID em nosso servidor de banco de dados, um Lenovo ThinkServer RD120. É uma Adaptec renomeada que a Lenovo / IBM chama de ServeRAID 8k .

Nós corrigimos este ServeRAID 8k até o mais recente e melhor:

  • Versão do BIOS RAID
  • Versão da bios do backplane RAID
  • driver do Windows Server 2008

Este controlador RAID teve várias atualizações críticas do BIOS, mesmo no curto espaço de 4 meses em que o possuímos, e o histórico de alterações é apenas ... bem, assustador.

Nós tentamos as estratégias write-back e write-through nas unidades RAID lógicas. Ainda temos erros de E / S intermitentes em atividades intensas de disco. Eles não são comuns, mas sérios quando ocorrem, pois causam tempos de espera de E / S do SQL Server 2008 e às vezes falha de pools de conexão SQL. / p>

Estávamos no final da nossa corda resolvendo esse problema. Além de coisas hardcore como substituir o servidor inteiro ou substituir o hardware RAID, estávamos ficando desesperados.

Quando cheguei ao servidor pela primeira vez, tive um problema em que o compartimento de unidade nº 6 não era reconhecido. Mudar os discos rígidos para uma marca diferente, estranhamente, consertou isso - e atualizar o BIOS RAID (pela primeira vez) fixou-o permanentemente, então eu pude usar a unidade original "incompatível" na baia 6. Em um palpite, comecei a supor que os discos rígidos SATA da Western Digital que eu escolhi eram de alguma forma incompatíveis com o Controlador ServeRAID 8k.

Comprar 6 novos discos rígidos foi uma das opções mais baratas na mesa, então eu fui para 6 Hitachi (também conhecido como IBM, também conhecido como Lenovo) discos rígidos sob a teoria de que um controlador IBM / Lenovo RAID tem maior probabilidade de funcionar com as unidades com as quais normalmente é vendido.

Parece que esse pressentimento valeu a pena - passamos por três dos nossos dias de carga mais pesados (seg, terça, quarta) sem um único erro de I / O de qualquer tipo. Antes disso, tínhamos regularmente pelo menos um "evento" de E / S nesse período de tempo. Parece que a mudança de marcas de disco rígido corrigiu nossos problemas intermitentes de E / S de RAID!

Embora eu entenda que a IBM / Lenovo provavelmente testa seu controlador RAID exclusivamente com sua própria marca de discos rígidos, estou incomodado porque um controlador RAID teria problemas de E / S tão sutis com marcas específicas de discos rígidos.

Então, minha pergunta é, esse tipo de incompatibilidade de unidade SATA é comum com controladores RAID? Existem algumas marcas de unidades que funcionam melhor que outras ou são "validadas" contra determinado controlador RAID? Eu presumi que todos os discos rígidos SATA eram similares e funcionavam razoavelmente bem em qualquer controlador RAID (de qualidade suficiente).

    
por Jeff Atwood 30.04.2009 / 09:04

8 respostas

6

Sim , encontrei isso com placas de baixo custo e drivers com bugs. No entanto, não , não em um cartão remarcado da Adaptec atualizado. Uau é tudo que posso dizer. Uma coisa a considerar, talvez seja mais um bug com a unidade do que o controlador RAID.

Eu não tenho uma boa resposta, mas como você parece ter esgotado a maioria de suas opções além de substituir a placa (e substituir as unidades resolveu o problema), aqui estão algumas ideias que você pode considerar para a sua solução de problemas: / p>

  • As unidades WD eram unidades RE (RAID Edition), certo? A recuperação de erros por tempo limitado é importante, por isso, se você não tem isso e a unidade está tentando recuperar a setor, você vai ter uma pausa looooong daquela unidade. Se o controlador RAID estiver sendo paciente e não deixar a unidade, você terá um grande problema em suas mãos.

  • Verifique os dados SMART nas unidades removidas e veja se há algo interessante.

Outro comentário sobre a importância do recurso TLER (time limited error recovery), do suporte do fornecedor NAS / RAID:

As I mention before, we always suggest customers to use enterprise level drives if they use the drives in RAID settings. Enterprise level drives have more consistent responding time so that the RAID will be safer.

    
por 30.04.2009 / 18:42
13

Mesmo para discos rígidos de mesa simples e não RAID, a compra de unidades do fornecedor (com a margem de lucro ridícula esperada) pode muitas vezes fazer a diferença. Por exemplo, a Apple tem o cuidado de enviar apenas unidades que sejam realmente capazes de honrar o% do Mac OS XF_FULLSYNC fcntl() bandeira , que ajuda muito a garantir que coisas como Time Machine backups funcionam de forma confiável.

Mais uma vez, este é o uso normal do desktop sem nenhum RAID envolvido. Qualquer coisa mais complexa do que isso e você definitivamente quer comprar, se não as unidades com preço acima do próprio fornecedor, então, pelo menos, os modelos que você sabe com certeza estão na lista "aprovada" do fornecedor.

Então, para responder à sua pergunta, é comum? Eu diria, sim, mais comum do que você imagina, mesmo além do reino da empresa.

    
por 30.04.2009 / 14:41
4

Eu não acho que é comum por si só. No entanto, assim que você começar a usar os controladores de armazenamento corporativo, sejam controladores de RAID independentes ou de SAN, você geralmente desejará aderir à lista de compatibilidade deles com bastante proximidade.

Você pode economizar alguns dólares no preço da etiqueta comprando uma gama barata de discos, mas essa é provavelmente uma das últimas áreas em que eu gostaria de economizar - dada a importância dos dados na maioria dos cenários. / p>

Em outras palavras, a incompatibilidade explícita é muito incomum, mas a adesão à compatibilidade explícita é recomendável.

    
por 30.04.2009 / 09:56
4

Eu não sonharia em usar discos SATA para um servidor - nenhum deles tem o ciclo de trabalho esperado de uma unidade de qualidade de servidor e eles não têm o rico conjunto de comandos que SCSI / SAS tem para monitorar o desempenho e a integridade da unidade . Os servidores da Lenovo são baratos e ótimos se você tiver muitos servidores com nenhum deles realmente tão importantes, mas há uma razão pela qual os servidores da série 300 da HP representam 40% do mercado - eles funcionam. Em particular, seus controladores de disco 'SmartArray' são incomparáveis em confiabilidade e desempenho, e sua garantia pré-falha é uma adição bem-vinda. Não é o mais barato, mas quanto vale o seu tempo? Eu tenho comprado os servidores deles (bem, Compaq primeiro tbh) há 20 anos e não tenho nenhum problema em comprar os 500-800 novos por ano que eu faço. Sério, verifique-os.

    
por 05.05.2009 / 00:51
2

A resposta como sempre é "depende".

Para determinado armazenamento corporativo (por exemplo, EMC), o fornecedor qualificará especificamente os drives e até chegará ao ponto de carregar o firmware personalizado.

Como Mark diz, acho que é o melhor quando você segue a lista aprovada de um fornecedor, se houver uma. A economia inicial é compensada pelo tempo gasto tentando caçar gremlins.

    
por 30.04.2009 / 10:22
2

Você tem um controlador SAS, que pode ser o problema. Embora o protocolo SAS possa ser usado para encapsular comandos ATA, a sinalização no nível físico é um pouco diferente (o SAS usa maior voltagem e maior diferencial). Quase todos os controladores são capazes de falar diretamente com drives SATA, mas se houver um backplane (grande? Horrível?) No meio, o sinal pode ser interrompido. Normalmente, no mundo corporativo, anexar drivers SATA diretamente a um controlador SAS não é oficialmente suportado, você deve usar um interposer (uma pequena placa lógica que se conecta diretamente ao disco que de um lado entende o protocolo SAS completo , por outro lado, fala ATA - desta forma, o backplane transporta a maior sinalização SAS).

Algo relacionado: a combinação de unidades SAS e SATA no mesmo painel traseiro tende a falhar, porque a sinalização de todas as unidades (incluindo SAS) é reduzida para o nível SATA.

    
por 04.05.2009 / 16:49
1

Provavelmente suas unidades WD precisam de uma atualização de firmware . Consulte esta nota da IBM para fazer o download e aplicar a atualização. Como você pode ver nas instruções , os discos WD estão longe de ser o único aqueles com problemas.

Se você for colocar suas unidades em um ambiente de servidor exigente, você terá mais problemas do que em uma configuração de desktop entusiasta típica.

Você poderia comentar sobre por que escolheu a classe de área de trabalho Deskstar série de unidades em vez da classe Enterprise / RAID Ultrastar series? Você acha que o custo extra não vale a confiabilidade e a velocidade adicionais?

    
por 01.06.2009 / 10:12
0

Como engenheiro que trabalha com controladores RAID, posso dizer que não é incomum que algumas marcas de drives tenham problemas com certos controladores RAID. Cada unidade tem suas peculiaridades particulares, e qualquer modelo de unidade listado na lista de "dispositivos compatíveis" do controlador terá suas peculiaridades explicadas pelo controlador. Para que um modelo de unidade apareça na lista, ele deve atender aos padrões do fabricante do controlador quanto a desempenho e confiabilidade. Qualquer unidade que não esteja nessa lista pode funcionar, mas não passou pelos mesmos testes rigorosos que os dispositivos "aprovados", YMMV.

Em particular, o protocolo SATA permite comandos específicos do fornecedor (não padronizados) que podem ser definidos pelo inversor ou pelo controlador. No seu caso, você pode estar vendo um controlador que espera que uma unidade responda a um comando proprietário específico ou a uma unidade que espera ver um comando proprietário que nunca chega.

Outra possibilidade é que suas unidades problemáticas não se comportem muito bem sob certas cargas de trabalho estressantes, e o comportamento que você vê foi suficiente para a Adaptec / IBM não listar esse modelo de unidade como suportado.

Infelizmente, os protocolos de armazenamento (SATA, SAS, etc) não são tão bons quanto outras interfaces padronizadas (USB, PCI, etc) onde tudo que você precisa é um barramento e um dispositivo que falem a mesma linguagem e que tudo esteja bem. Especialmente quando se trata de equipamentos de nível empresarial, fabricantes de dispositivos e fabricantes de drives gastam muito tempo e energia colaborativos, garantindo que os clientes obtenham o melhor desempenho possível das configurações usadas pela maioria dos clientes (isto é, usando unidades fora do lista "dispositivos suportados"). Uma unidade que não esteja nessa lista pode ter sido projetada para funcionar de maneira ideal com uma marca diferente de controlador, e os erros que você está vendo são um efeito colateral da otimização.

    
por 22.02.2010 / 19:05