As instalações modernas do Hadoop geralmente são usadas para vários drives SATA de consumidor final por caixa.
Exatamente quantos discos por nó dependem muito do seu aplicativo. No Yahoo, por exemplo, eles são, na maioria das vezes, vinculados ao tamanho do disco, portanto, muitos discos por nó fazem sentido. Eu vi a tecnologia stealth que pode saturar um grande número de canais de drive, então múltiplos planos de fundo com muitos discos fazem sentido lá.
Se você está apenas começando, recomendo 6 x 2TB SATA ou 12 x 2TB SATA. Existem algumas caixas Supermicro agradáveis que fornecem quatro nós em um único chassi 2U com 12 unidades na frente, o que é bom e compacto, mas ter apenas 2 unidades de 2 TB por nó pode ser um pouco limitador. Esse mesmo fator de forma 2U também pode hospedar 1 ou 2 nós com os mesmos 12 drives na placa frontal. Como o próprio chassi custa dinheiro, isso pode fazer a diferença.
Outra consideração é que muitos centros de dados são limitados pela energia por pé quadrado. A energia gasta é dividida de duas maneiras em um cluster do Hadoop, algumas para CPU / memória e uma grande parte para manter as unidades girando. Como esses limites provavelmente evitarão o preenchimento de um rack com caixas de nó super compactas de 4 x, você pode preferir ir em frente e obter caixas de nó único para poder adicionar unidades mais tarde, conforme desejar.
Se você não estiver limitado por espaço em disco, considere a largura de banda total da rede. Ter mais NICs por drive é bom aqui, então as caixas são legais.
Na mesma linha, quais são os seus requisitos de memória? 24 GB de RAM para uma máquina quad core dual é bastante normal ultimamente, mas você pode precisar de mais ou ser capaz de escapar com menos. Ter uma quantidade agregada de memória maior no mesmo número de unidades pode ser bom para seu aplicativo.