Discos para hadoop, o que você recomendaria? [fechadas]

1

qual é a sua recomendação sobre discos para o Hadoop?

Você recomenda o uso do SAS ou apenas conecta o disco ao SATA? Ou talvez mais alguma coisa? Quais são os prós e contras de todas as opções?

(Decisão sobre o tamanho do disco foi feita, e haverá cerca de 5-6 discos de 2 TB em cada servidor)

    
por wlk 26.07.2010 / 07:56

4 respostas

3

As instalações modernas do Hadoop geralmente são usadas para vários drives SATA de consumidor final por caixa.

Exatamente quantos discos por nó dependem muito do seu aplicativo. No Yahoo, por exemplo, eles são, na maioria das vezes, vinculados ao tamanho do disco, portanto, muitos discos por nó fazem sentido. Eu vi a tecnologia stealth que pode saturar um grande número de canais de drive, então múltiplos planos de fundo com muitos discos fazem sentido lá.

Se você está apenas começando, recomendo 6 x 2TB SATA ou 12 x 2TB SATA. Existem algumas caixas Supermicro agradáveis que fornecem quatro nós em um único chassi 2U com 12 unidades na frente, o que é bom e compacto, mas ter apenas 2 unidades de 2 TB por nó pode ser um pouco limitador. Esse mesmo fator de forma 2U também pode hospedar 1 ou 2 nós com os mesmos 12 drives na placa frontal. Como o próprio chassi custa dinheiro, isso pode fazer a diferença.

Outra consideração é que muitos centros de dados são limitados pela energia por pé quadrado. A energia gasta é dividida de duas maneiras em um cluster do Hadoop, algumas para CPU / memória e uma grande parte para manter as unidades girando. Como esses limites provavelmente evitarão o preenchimento de um rack com caixas de nó super compactas de 4 x, você pode preferir ir em frente e obter caixas de nó único para poder adicionar unidades mais tarde, conforme desejar.

Se você não estiver limitado por espaço em disco, considere a largura de banda total da rede. Ter mais NICs por drive é bom aqui, então as caixas são legais.

Na mesma linha, quais são os seus requisitos de memória? 24 GB de RAM para uma máquina quad core dual é bastante normal ultimamente, mas você pode precisar de mais ou ser capaz de escapar com menos. Ter uma quantidade agregada de memória maior no mesmo número de unidades pode ser bom para seu aplicativo.

    
por 05.12.2010 / 21:19
1

Bem, como você usa o Hadoop, a redundância está no aplicativo, portanto, você não precisa pensar em redundância em cada nó em relação ao armazenamento. É claro que isso deve ser feito com boas rotinas sobre como colocar um nó online novamente em caso de falha de armazenamento.

Acho que dois discos SATA no RAID0 devem fazê-lo. Mas eu realmente não sei se você vai ganhar alguma coisa neste vice de performance com o Hadoop, isso só pode adicionar complexidade.

    
por 26.07.2010 / 08:56
1

Nessa situação, a única preocupação relacionada ao desempenho que tenho é que os discos SAS geralmente se comportam melhor em cenários de alta carga - mas somente você conhece sua carga antecipada.

O que eu diria é que você quer escolher discos de classe empresarial de qualquer maneira, o Hadoop pode ser bastante intensivo em um período de 24 horas e você quer um disco que foi projetado para operação 24/365 e muitos dos mais baratos discos simplesmente não fazem isso de forma confiável.

O WD2003FYYS da WD é altamente considerado.

    
por 26.07.2010 / 12:13
1

Design com falha em mente e o Hadoop impressionará. Eu corro todos os meus clusters com drives não empresariais e não tive falhas em minhas operações 24/7. A economia de custos supera todas as possíveis falhas, além disso, a maioria dos discos vem com garantias de 5 anos, portanto, basta enviá-los para obter RMAd e seguir em frente.

Na minha experiência, normalmente acabo atualizando as unidades antes que elas morram, mas YMMV.

Todos os datanodes devem ser executados como ext2, não executem o registro no diário nem usem qualquer RAID de qualquer forma ... O Hadoop é o seu raid com o modo como você define os níveis de replicação.

    
por 21.09.2010 / 05:51