Não consigo falar com o resto, mas parece que você está confuso entre um 'mecanismo de armazenamento distribuído' e um 'sistema de arquivos distribuído'. Eles não são a mesma coisa, não devem ser confundidos com a mesma coisa, e nunca serão a mesma coisa. Um sistema de arquivos é uma maneira de rastrear onde as coisas estão localizadas em um disco rígido. Um mecanismo de armazenamento como o hadoop é uma maneira de rastrear uma parte dos dados identificados por uma chave. Conceitualmente, não há muita diferença. O problema é que um sistema de arquivos é uma dependência de um mecanismo de armazenamento ... afinal, ele precisa de uma maneira de gravar em um dispositivo de bloco, não é?
Além disso, eu posso falar sobre o uso de ocfs2 como um sistema de arquivos distribuído em um ambiente de produção. Se você não quer os detalhes, pare de ler depois desta linha: É legal, mas pode significar mais tempo de inatividade do que você pensa.
Estamos executando o ocfs2 em um ambiente de produção nos últimos dois anos. Tudo bem, mas não é ótimo para muitos aplicativos. Você deve realmente olhar para as suas necessidades e descobrir o que elas são - você pode achar que tem muito mais latitude para falhas do que você pensou ter feito.
Como exemplo, o ocfs2 tem um diário para cada máquina no cluster que montará a partição. Então, digamos que você tenha quatro máquinas web, e quando você fizer essa partição usando mkfs.ocfs2, você especificará que haverá seis máquinas no total para dar a si mesmo algum espaço para crescer. Cada uma dessas revistas ocupa espaço, o que reduz a quantidade de dados que você pode armazenar nos discos. Agora, digamos que você precisa escalar para sete máquinas. Nessa situação, você precisa desmontar o cluster inteiro (ou seja, desmontar todas as partições ocfs2) e usar o utilitário tunefs.ocfs2 para criar um diário adicional, desde que haja espaço disponível. Então, e só então, você pode adicionar a sétima máquina ao cluster (que requer a distribuição de um arquivo de texto para o restante do cluster, a menos que você esteja usando um utilitário), restaurar tudo e montar a partição em todos os sete. máquinas.
Veja o que quero dizer? É suposto ser alta disponibilidade, o que significa "sempre online", mas aí você tem um monte de tempo de inatividade ... e Deus me livre de que você esteja lotado de espaço em disco. Você não quer ver o que acontece quando você mistura ocfs2.
Tenha em mente que o evms, que costumava ser o modo 'preferido' para gerenciar clusters ocfs2, foi o caminho do pássaro Dodô em favor de clvmd e lvm2. (E boa viagem para as evas.) Além disso, o batimento cardíaco rapidamente se transformará em um projeto de zumbis em favor da pilha openais / marcapasso. (Além: Ao fazer a configuração inicial do cluster para ocfs2, você pode especificar 'pcmk' como o mecanismo do cluster em oposição à pulsação. Não, isso não está documentado.)
Por que vale a pena, voltamos para o nfs gerenciado pelo marca-passo, porque os poucos segundos de inatividade ou alguns pacotes tcp descartados, à medida que o marca-passo migra um compartilhamento nfs para outra máquina, são triviais em comparação com a quantidade de tempo de inatividade vendo as operações básicas de armazenamento compartilhado, como adicionar máquinas ao usar o ocfs2.