Falha no disco do Hadoop, o que você faz?

6

Eu gostaria de saber sobre suas estratégias sobre o que fazer quando um dos discos do servidor do Hadoop falhar.

Digamos que eu tenha vários (> 15) servidores Hadoop e 1 namenode, e um de 6 discos em escravos parem de funcionar; os discos sejam conectados via SAS. Eu não me importo com a recuperação de dados desse disco, mas com estratégias gerais para manter o cluster em execução.

O que você faz?

    
por wlk 25.06.2010 / 22:23

2 respostas

3

Nós implantamos o hadoop. Você pode especificar números de replicação para arquivos. Quantas vezes um arquivo é replicado. O Hadoop possui um único ponto de falha no namenode. Se você estiver preocupado com a saída de discos, aumente a replicação para 3 ou mais.

Então, se um disco vai mal, é muito simples. Jogue fora e reformate. O Hadoop se ajustará automaticamente. Na verdade, assim que um disco for lançado, ele começará a reequilibrar os arquivos para manter os números de replicação.

Não sei por que você tem uma recompensa tão grande. Você disse que não se importa em recuperar dados. O Hadoop possui apenas um único ponto de falha no nó de nome. Todos os outros nós são dispensáveis.

    
por 01.09.2010 / 02:05
3

Você mencionou que este sistema foi herdado (possivelmente não atualizado) e que o carregamento é disparado indicando um possível loop infinito. Este relatório de bug descreve sua situação?

link

Se sim, foi reportado como corrigido no último HDFS 0.21.0 (lançado na semana passada):

link

Isenção de responsabilidade: Para minha decepção, ainda estou precisando usar o Hadoop / HDFS:)

    
por 03.09.2010 / 09:49