As unidades “corporativas” podem ser substituídas com segurança por near / midline em algumas situações?

21

Ao especificar servidores, como (eu diria) muitos engenheiros que não são especialistas em armazenamento, eu geralmente jogo com segurança (e talvez seja um escravo do marketing) padronizando um mínimo de unidades SAS de 10k (e portanto, são "enterprise" -grade com um ciclo de serviço 24x7, etc) para dados de "sistema" (normalmente sistema operacional e às vezes aplicativos) e reservam o uso de unidades de média / média de 7,2k para armazenamento de dados que não sejam do sistema onde o desempenho não é t um fator significativo. Isso é tudo assumindo discos de 2,5 "(SFF), já que os discos de 3,5" (LFF) só são realmente relevantes para requisitos de IOPs de baixa capacidade e alta capacidade.

Em situações em que não há uma grande quantidade de dados que não são do sistema, geralmente os coloco nos mesmos discos / matriz dos dados do sistema, o que significa que o servidor tem apenas 10k unidades SAS (geralmente um "One Big" RAID10 "tipo de configuração nos dias de hoje). Somente se o tamanho dos dados que não são do sistema for significativo, geralmente considero colocá-lo em uma matriz separada de discos mid / nearline de 7.2k para manter o custo / GB inativo.

Isso me levou a pensar: em algumas situações, esses discos de 10k na matriz RAID10 poderiam ter sido substituídos por discos de 7.2k sem nenhuma conseqüência negativa significativa? Em outras palavras, às vezes eu estou exagerando (e mantendo os fornecedores de hardware felizes) aderindo a um mínimo de 10k discos "de nível empresarial", ou há uma boa razão para se manter sempre no mínimo?

Por exemplo, escolha um servidor que atue como hipervisor com algumas VMs para uma pequena empresa típica (digamos, 50 usuários). A empresa tem padrões de E / S médios sem requisitos especiais. Típico 9-5, escritório de seg-sex, com backups funcionando por algumas horas por noite. As VMs talvez pudessem ser um DC e um servidor de arquivos / impressão / aplicativos. O servidor possui um array RAID10 com 6 discos para armazenar todos os dados (dados do sistema e não do sistema). Para o meu olho não especialista, parece que os discos mid / nearline podem funcionar bem. Tomando discos HP como um exemplo:

  • Carga de trabalho: os discos de linha média são classificados para < 40% da carga de trabalho. Com o escritório aberto apenas por 9 horas por dia e a média de E / S durante esse período improvável de estar em qualquer lugar perto do máximo, parece improvável que a carga de trabalho ultrapassasse 40%. Mesmo com um par de horas de I / O intensa durante a noite para backups, meu palpite é que ainda estaria abaixo de 40%
  • Velocidade: embora os discos tenham apenas 7.2k, o desempenho é melhorado distribuindo-o por seis discos

Então, minha pergunta: é sensato colocar no mínimo 10k drives SAS ou os discos de linha média / nearline de 7,2k são realmente mais do que adequados em muitas situações? Se sim, como posso avaliar onde está a linha e evitar ser um escravo da ignorância jogando pelo seguro?

Minha experiência é principalmente com servidores da HP, portanto, o que foi exposto acima pode ter um pouco de inclinação da HP para ele, mas eu presumo que os princípios sejam independentes do fornecedor.

    
por dbr 17.01.2016 / 23:02

3 respostas

25

Há uma interseção interessante de design de servidor, tecnologia de disco e economia aqui:

Veja também: Por que Discos Large Form Factor (LFF) ainda bastante prevalentes?

  • O movimento em direção a um rack denso e a servidores de fator de forma pequenos. Por exemplo. você não vê mais muitas ofertas de torres dos principais fabricantes, enquanto as linhas de produtos mais densas desfrutam de revisões mais frequentes e têm mais opções / disponibilidade.
  • Estagnação no desenvolvimento de discos corporativos de 3,5 "(15k) - 600 GB 15k 3,5" é o maior que você pode alcançar.
  • Avanço lento em capacidades de disco de 2,5 "perto da linha (7,2k) - 2TB é o maior que você encontrará lá.
  • Maior disponibilidade e menor preço de SSDs de alta capacidade.
  • Consolidação de armazenamento no armazenamento compartilhado. Cargas de trabalho de servidor único que exigem alta capacidade às vezes podem ser atendidas via SAN.
  • A maturação de matrizes de armazenamento totalmente flash e híbridas, além do influxo de inicializações de armazenamento.

Os motivos acima são os motivos pelos quais você geralmente encontra fabricantes focados em servidores 1U / 2U com 8-24 baias de unidade de disco de 2,5 ".

Discos de 3,5 "são para casos de uso de alta capacidade de baixo IOPs (2 TB +). Eles são ideais para gabinetes de armazenamento externo ou armazenamento SAN liderado por alguma forma de armazenamento em cache. Em velocidades corporativas de 15k RPM, estão disponíveis somente até 600 GB.

Discos giratórios de 10k RPM de 2,5 "são para necessidades de IOPS mais altas e geralmente estão disponíveis até 1,8 TB de capacidade.

Discos giratórios de 7,2k RPM são uma má escolha porque não oferecem capacidade, desempenho, longevidade nem vantagens de preço.Por exemplo, o custo de uma unidade SAS 10k de 900GB é muito próximo ao de uma SAS de 7,2k RPM de 1TB. a pequena diferença de preço, a unidade de 900GB é a melhor compra.No exemplo de 1.8TB 10k SAS versus 2.0TB 7.2k SAS , os preços também são muito próximos. As garantias são 3- ano e 1 ano, respectivamente.

Portanto, para servidores e armazenamento interno de 2,5 ", use SSD ou 10k. Se você precisar de capacidade e tiver compartimentos de unidade de 3,5" disponíveis interna ou externamente, use 7,2k RPM.

Para os casos de uso descritos, você não está configurando demais os servidores. Se eles têm 2,5 "compartimentos de unidade, você deve realmente estar usando apenas 10k SAS ou SSD. Os discos de linha média são uma perda de desempenho, capacidade, têm um garantia significativamente menor e não economiza muito em custo.

    
por 17.01.2016 / 23:22
5

Existem pelo menos algumas coisas que poderiam causar problemas com alguns tipos de unidade:

  • Unidades que não são destinadas a lidar com a carga de vibração de um chassi com muitos drives (problema improvável com qualquer unidade especificada como compatível com RAID / NAS)

  • Firmware que não permite o TLER, ou precisa de uma reconfiguração manual demorada do drive para habilitá-lo (idem)

  • Unidades que nunca foram testadas com o controlador RAID e podem ter erros não reconhecidos que aparecem em tal configuração

  • Armazenamento interno de caches de gravação que se comportam de uma forma (a escrita física está fora de ordem ou muito atrasada) que causa muita confusão no caso de um desligamento (controlador RAID deve ser configurado para forçar estes OFF. problema se firmware deve sempre ignorar isso.Veja unidades não testadas :)

  • O Drive pode executar rotinas de manutenção internas ocasionalmente que poderiam fazer o drive se comportar lentamente ou responder com atraso suficiente para fazer com que o controlador RAID pense que ele falhou (relacionado ao TLER)

  • O SATA em geral, como geralmente é implementado, tem menos salvaguardas em comparação com o SAS em relação a um drive com suspensão completa ou suspensão eletrônica pendurada tudo no controlador (sem risco teórico, combinações de marca de disco + controlador amam esse modo de falha).

por 18.01.2016 / 01:37
4

ENORME problema:

(Pode ser um pouco fora do tópico - mas é importante! )

Quando você está lidando com SSDs - (como é frequentemente o caso, ou pode ser o caso ou a tentação) - um lote de SSDs tem um problema desagradável onde eles nem sempre podem se recuperar de energia espontânea interrupções!

Este é um problema minúsculo com HDDs. Os HDDs geralmente têm capacitância suficiente para alimentar sua lógica e um momento angular suficiente para transportar os discos, terminando de escrever um bloco de 512 bytes - no caso de perda de energia no meio da gravação. Uma vez em um raro enquanto, isso não funcionará, resultando em algo chamado de "gravação rasgada" - onde um único bloco pode ser parcialmente escrito. A gravação parcial (albiet raro) causará uma falha de soma de verificação no bloco - ou seja, esse bloco individual será ruim. Isso geralmente pode ser detectado como ruim pelo próprio circuito do disco e corrigido pelo controlador RAID upstream.

SSDs são um animal diferente. O geralmente implementa algo chamado "wear leveling" - onde eles não apenas escrevem "block X" em um local físico para "block X" como um HDD faz. Em vez disso, eles tentam gravar em locais difference na mídia flash e tentam agregar ou combinar gravações (usando um pouco de buffer). Escrever para os diferentes lugares envolve manter um "mapa" de onde as coisas são escritas, que também é armazenado em buffer e escrito de maneira a reduzir o desgaste. Parte do nivelamento de desgaste pode envolver dados em movimento que já estão no dispositivo e nem foram escritos recentemente.

O problema é que quando o SSD perde energia - ele tem muitos dados na memória (sem liberação), tem alguns dados que foram gravados em locais diferentes / alterados - e possui esses mapas em sua própria memória, que precisa ser liberado para fazer qualquer sentido da estrutura de todos os dados no dispositivo.

MUITOS SSDs não possuem lógica ou circuitos para poder manter seus controladores altos e vivos por tempo suficiente em energia espontânea para liberar com segurança todos esses dados para piscar antes de morrer. Isso não significa apenas que aquele bloco que você escreveu agora poderia estar em risco - mas em outros blocos - mesmo todos os blocos no dispositivo podem estar com problemas. Muitos dispositivos também têm problemas onde eles não apenas perdem todos os dados no dispositivo, mas o próprio dispositivo fica emparedado e inutilizável.

Isso é tudo verdade teoria - mas (trabalhando na indústria de armazenamento) - Eu / nós temos visto isso acontecer muitas vezes em muitos dispositivos - incluindo em alguns dos nossos laptops pessoais!

Muitos fornecedores discutiram a criação de "SSDs de nível empresarial", nos quais os dispositivos especificamente específicos ("super-caps") e outros circuitos permitem um "flush" limpo, mas é muito difícil encontrar qualquer dispositivo especificamente declara, como parte de sua folha de dados, que tem proteção suficiente, explícita e testada contra esses eventos e que protege contra tais eventos.

Obviamente, se você comprar um "storage high-end" de um fornecedor de primeira linha que utiliza a tecnologia flash, suas unidades - ou seu sistema em geral foram projetadas com tudo isso em conta . Certifique-se de que tem!

O problema com relação à sua pergunta é: se você tem uma matriz RAID - e vários dos discos são os SSDs "ruins" sem essa proteção - se você tiver uma "interrupção de energia espontânea" - poderá perder ALL os dados em discos MULTIPLE que impossibilitam a reconstrução RAID.

"But I use a UPS"

Também é importante observar que "falta de energia espontânea" pode incluir situações como BSOD e bloqueios / travamentos / pânico do kernel - onde você não tem escolha de recuperar para puxar o plugue do sistema.

    
por 18.01.2016 / 20:26