Arquitetura Ceph para cluster HPC pequeno

1

Eu quero criar o Cluster de armazenamento Ceph para uso HPC. (Baseado no CentOS 7) Por enquanto eu tenho gabinete RAID SAS empresarial com 3 prateleiras por 12 discos de 4 TB (total de 36). Agora está configurado como rig RAID6 padrão. E o desempenho é muito ruim. Também não posso escalar o sistema. Não há como alternar para discos de 6 TB, por exemplo. Então o que eu quero fazer.

  1. Mude de RAID6 para JBOD.
  2. Mapeie cada um dos 12 discos para três portas diferentes do controlador.
  3. Conecte 3 servidores ao gabinete por placa SAS HBA.
  4. Defina um conjunto de ceph. Tipo: CephFS 512 pg_num. Apague a codificação. Failure-domain = host. Bluestore.
  5. Montar o pool do CephFS em nós de computação com IPoIB.

As principais perguntas estão em torno do quarto passo.

  1. Como escolher códigos de apagamento k + m? 3 + 3 4 + 2 8 + 3 8 + 4 10 + 4? Na verdade, não consigo entender como ele lidará com diferentes falhas. Como eu entendo meu sistema precisa lidar com 1 host down + 1-2 OSDs falha. É possível com 3 hosts config? Se não, o que acontecer se o OSD falhar durante o processo de cura após a falha do host? O que irá acontecer se o OSD falhar quando um host estiver inativo para manutenção começou)?
  2. É possível adicionar SSDs do WAL / DB para o Bluestore mais tarde, filestore?
  3. As chamadas HPC MPI sofrerão de tráfego IPoIB na mesma interface do IB e mudar?

E pergunta geral. Será que vai funcionar, ou eu perdi algo global?

    
por Severgun 20.09.2018 / 20:03

1 resposta

0

Desempenho

A codificação de eliminação é intensiva da CPU. Se você precisar de desempenho, use 3 cópias.

Mais discos, melhor desempenho. JBOD é o caminho a percorrer.

Os SSDs corporativos são altamente recomendados. Você pode reconfigurar, adicionar e remover os OSDs posteriormente.

Disponibilidade e proteção de dados

Quanto mais nós você tiver, o armazenamento será mais resistente à perda de dados.

Para código de eliminação e 3 hosts, o mínimo é k = 3 m = 2 . Quando o host falha, você perderá 1 parte de dados e uma parte de paridade será necessária para recuperar. Então, você precisa de pelo menos duas partes de paridade no caso de um estar em um host com falha.

Seria melhor se você tivesse mais nós do que k + m . Quando 1 host falha, você quer ter todas as partes de apagamento nos hosts restantes.

Para proteção com 3 cópias, o mínimo recomendado é de 4 hosts. Quando uma falha, você ainda tem espaço para 3 cópias.

Para a produção, você precisará de mais servidores.

    
por 13.11.2018 / 15:11

Tags