É seguro usar SSDs do MLC do consumidor em um servidor?

44

Nós (e nós queremos dizer Jeff) estamos estudando a possibilidade de usar discos SSD do Consumer MLC em nosso data center de backup.

Queremos tentar manter os custos baixos e o espaço utilizável - então os Intel X25-E estão praticamente em torno de 700 $ cada e 64GB de capacidade.

O que estamos pensando em fazer é comprar alguns dos SSDs mais baratos que oferecem mais capacidade a um preço mais baixo. Meu chefe não acha que vale a pena investir cerca de 5k por discos em servidores que estão sendo executados fora do data center de backup.

Essas unidades seriam usadas em uma matriz RAID de 6 unidades em um Lenovo RD120. O controlador RAID é um Adaptec 8k (Lenovo renomeado).

Quão perigosa é essa abordagem e o que pode ser feito para mitigar esses perigos?

    
por Zypher 01.02.2011 / 21:48

8 respostas

61

Alguns pensamentos;

  • Os SSDs têm memória "supercomprometida". Esta é a memória usada no lugar de células 'danificadas' por escrito. SSDs de baixo custo podem ter apenas 7% de espaço supercomprometido; mid-range em torno de 28%; e discos corporativos até 400%. Considere este fator.
  • Quanto você vai escrever para eles por dia? Até mesmo os SSDs de médio porte, como os baseados nos chips 1200 da Sandforce, raramente apreciam mais do que cerca de 35 GB de gravações por dia antes de cortar seriamente a memória supercomprometida.
  • Normalmente, o primeiro dia de um novo SSD é cheio de escrita, seja sistema operacional ou dados. Se você tiver significativamente mais de > 35 GB de gravações no primeiro dia, considere copiá-lo em lotes para dar ao SSD um pouco de tempo entre os lotes.
  • Sem suporte a TRIM, o desempenho de gravação aleatória pode cair em até 75% dentro de semanas se houver muita gravação durante esse período - se você puder, use um sistema operacional que suporte TRIM
  • Os processos internos de coleta de lixo que os SSDs modernos executam são muito especificamente executados durante os períodos de inatividade e param na atividade. Este não é um problema para um PC de mesa onde o disco pode ficar silencioso durante 60% do seu ciclo normal de 8 horas, mas você executa um serviço de 24 horas ... quando este processo terá a chance de ser executado?
  • Geralmente, ele é enterrado nas especificações, mas como os discos comuns, os SSDs de baixo custo também devem ter um ciclo de trabalho de cerca de 30%. Você os usará por quase 100% do tempo - isso afetará sua taxa de MTBF.
  • Embora os SSDs não sofram os mesmos problemas mecânicos que os discos comuns, eles possuem erros de bit único e de múltiplos bits - portanto, considere RAID para eles mesmo que o instinto não seja. Obviamente, isso terá impacto em toda aquela adorável velocidade de gravação aleatória que você acabou de comprar, mas considere isso de qualquer maneira.
  • Ainda é SATA não SAS, portanto, o gerenciamento de filas não será tão bom em um ambiente de servidor, mas, novamente, o aumento extra de desempenho será bastante dramático.

Boa sorte - só não 'frite' com as gravações:)

    
por 01.02.2011 / 22:09
12

Eu encontrei este link, que tem uma análise interessante e completa de SSDs MLC vs SLC em servidores

In my view using an MLC flash SSD array for an enterprise application without at least using the (claimed) wear-out mitigating effects of a technology like Easyco's MFT is like jumping out of a plane without a parachute.

Observe que alguns fornecedores de SSD do MLC afirmam que seus drives estão "enterprisey" o suficiente para sobreviver às gravações:

SandForce aims to be the first company with a controller supporting multi-level cell flash chips for solid-state drives used in servers. By using MLC chips, the SF-1500 paves the way to lower cost and higher density drives servers makers want. To date flash drives for servers have used single-level cell flash chips. That's because the endurance and reliability for MLC chips have generally not been up to the requirements of servers.

Existe uma análise mais aprofundada dessas afirmações na AnandTech .

Além disso, agora a Intel registrou que SLC pode ser um exagero em servidores 90% do tempo :

"We believed SLC [single-level cell] was required, but what we found through studies with Microsoft and even Seagate is these high-compute-intensive applications really don't write as much as they thought," Winslow said. "Ninety percent of data center applications can utilize this MLC [multilevel cell] drive."

.. over the past year or so, vendors have come to recognize that by using special software in the drive controllers, they're able to boost the reliability and resiliency of their consumer-class MLC SSDs to the point where enterprises have embraced them for high-performance data center servers and storage arrays. SSD vendors have begun using the term eMLC (enterprise MLC) NAND flash to describe those SSDs.

"From a volume perspective, we do see there are really high-write-intensive, high-performance computing environments that may still need SLC, but that's in the top 10% of even the enterprise data center requirements," Winslow said.

Intel is feeding that upper 10% of the enterprise data center market through its joint venture with Hitachi Global Storage Technologies. Hitachi is producing the SSD400S line of Serial Attached SCSI SSDs, which has 6Gbit/sec. throughput -- twice that of its MLC-based SATA SSDs.

A Intel, mesmo para suas unidades SSD orientadas para servidor, tem migrou do SLC para o MLC com um espaço de" superprovisionamento "muito alto com a nova série Intel SSD 710 . Essas unidades alocam até 20% do armazenamento geral para redundância internamente:

Performance is not top priority for the SSD 710. Instead, Intel is aiming to provide SLC-level endurance at a reasonable price by using cheaper eMLC HET NAND. The SSD 710 also supports user-configurable overprovisioning (20%), which increases drive endurance significantly. The SSD 710's warranty is 3 years or until a wear indicator reaches a certain level, whichever comes first. This is the first time we've seen SSD warranty limited in this manner.

    
por 01.02.2011 / 23:07
7

Sempre basear esses tipos de coisas em fatos, em vez de supor. Nesse caso, é fácil coletar fatos: registrar perfis de IOPS de leitura / gravação de longo prazo de seus sistemas de produção e, em seguida, descobrir com o que você pode conviver em um cenário de recuperação de desastres. Você deve usar algo como o percentil 99 como sua medida. Não use as médias ao medir a cpacidade de IOPS - os picos são tudo o que importa! Então você precisa comprar a capacidade necessária e IOPS conforme necessário para o seu site de DR. Os SSDs podem ser a melhor maneira de fazer isso, ou talvez não.

Assim, por exemplo, se seus aplicativos de produção exigirem 7500 IOPS no 99º percentil, você poderá decidir que poderá viver com 5000 IOPS em um desastre. Mas são necessários pelo menos 25 discos de 15K no seu local de recuperação de desastre, portanto, o SSD pode ser uma opção melhor se as necessidades de capacidade forem pequenas (parece que são). Mas se você medir apenas 400 IOPS em produção, compre apenas 6 unidades SATA, economize dinheiro e use o espaço extra para armazenar mais instantâneos de backup no site de recuperação de desastres. Você também pode separar leituras e gravações em sua coleta de dados para descobrir por quanto tempo os SSDs não empresariais durarão pela sua carga de trabalho com base em suas especificações.

Lembre-se também que os sistemas de DR podem ter memória menor do que a produção, o que significa que mais IOPS são necessários (mais troca e menos cache do sistema de arquivos).

    
por 02.02.2011 / 06:05
5

Mesmo que a SSD da MLS durasse apenas um ano, dentro de alguns anos as substituições seriam muito mais baratas. Então você pode lidar com a necessidade de substituir o SSD do MLS quando eles estão fora?

    
por 02.02.2011 / 14:04
3

Se definirmos o problema da quantidade de gravação de lado (ou provarmos que os SSDs no nível do consumidor podem lidar com isso), acho que os SSDs são uma boa coisa para adicionar aos ambientes de nível corporativo. Você provavelmente estará usando os SSDs em uma matriz RAID. RAID5 ou RAID6. E o problema com isso é que, após uma única falha na unidade, a matriz fica cada vez mais vulnerável a falhas. E o tempo para reconstruí-lo depende muito do volume do array. Uma variedade de TB pode levar dias para ser reconstruída, sendo constantemente acessada. No caso de SSDs, os RAID-arrays serão a) inevitavelmente menores b) o tempo de reconstrução diminui drasticamente.

    
por 01.02.2011 / 23:20
3

Um Whitepaper sobre as diferenças entre o SLC e o MLC da SuperTalent coloca a resistência do MLC e um 10º da resistência de um SSD SLC, mas as chances são de que o SSD da MLS sobreviverá ao hardware que você está colocando de qualquer maneira. Eu não tenho certeza do quão confiáveis essas estatísticas / fatos são da SuperTalent.

Supondo que você obtenha um nível semelhante de suporte do fornecedor do SSD do MLC, o preço mais baixo faz com que valha a pena.

    
por 01.02.2011 / 22:05
3

Você deve calcular a quantidade de gravações diárias que você tem com sua configuração atual e comparar com o que o fabricante garante que suas unidades SSD podem suportar. A Intel parece ser a mais sincera sobre isso - por exemplo, dê uma olhada nas folhas de dados de drives SSD: link

A seção 3.5 (3.5.4, especificamente) do documento de especificações diz que você tem garantia de que seu disco dure pelo menos 5 anos com 20 GB de gravações por dia. Suponho que esteja sendo calculado ao usar toda a capacidade da unidade e não provisionar espaço livre para as gravações.

Também é interessante a folha de dados sobre o uso de SSDs tradicionais em um ambiente corporativo.

    
por 02.02.2011 / 13:15
2

Eu implantei alguns drives SLC de 32 GB há alguns anos como um buffer para alguns aplicativos terrivelmente mal projetados que estávamos usando.

O aplicativo tinha 90% de gravações pequenas (< 4k) e estava funcionando consistentemente (24/7) a 14k w / s uma vez nas unidades SSD. Eles foram configurados RAID 1, tudo era rosado, a latência estava baixa!

No entanto, cerca de um mês depois e o primeiro drive lotado, literalmente dentro de 3 horas, a segunda unidade também havia morrido. RAID 1 não é um bom plano depois de tudo:)

Eu concordaria com os outros cartazes em algum tipo de RAID 6 se nada além disso espalha essas gravações em mais discos.

Agora, tenha em mente que isso foi há alguns anos e essas coisas são muito mais confiáveis agora e você pode não ter um perfil de E / S semelhante.

O aplicativo foi reprojetado, no entanto, como um intervalo de parada que pode ou não ajudá-lo, criamos um grande disco RAM, criamos alguns scripts para reconstruir / fazer backup do disco RAM e obter o impacto de uma hora perda de dados / tempo de recuperação.

Mais uma vez, o ciclo de vida dos seus dados pode ser diferente.

    
por 03.08.2011 / 21:33