Sistema de arquivos paralelos vs distribuídos versus tradicionais

3

Estou tentando entender as diferenças entre esses três sistemas de arquivos em um nível muito básico.

  • FS distribuído: HDFS
  • FS Paralelo: Lustre
  • FS tradicional: ext4 / ext3 / NTFS / FAT etc.

Eu quero saber quais são as diferenças conceituais básicas entre esses três sistemas de arquivos. A maioria dos meus conhecimentos é dos sistemas de arquivos tradicionais, ou seja, ext3 / 4 superbloco, inode etc .

  • Se um processo baseado em MPI (np = 8) tentar ler um arquivo ou gravar um arquivo A do sistema de arquivos, então como o mecanismo de acesso a arquivos difere nestes contextos
  • também como é um arquivo armazenado neste ambiente? ou seja, o arquivo A será dividido em vários discos ou o arquivo A terá cópias redundantes no armazenamento. ou um cenário mais simples será dizer que vários usuários abrem um documento do Word e o salva, então como a reversão / sincronização diferem nesses três cenários

Até agora eu formulei alguns conceitos que: -

  • No sistema de arquivos local, o armazenamento é fisicamente montado servidor / nós.
  • No sistema de arquivos paralelo, um disco é compartilhado (montagem) vários nós e
  • No FS distribuído, os vários nós têm armazenamento local múltiplo, mas todos eles são sincronizados por alguns mecanismo.

Se eu tenho A, B é uma estação de trabalho e C, D é o disco:

  1. Se C estiver fisicamente montado em A & formatado como ext4, então é o sistema de arquivos tradicional.
  2. Se C for montado fisicamente no servidor de armazenamento, Z + C será montado em rede (NFS) em A & B então este é o cluster FS.
  3. Se C estiver fisicamente montado em A e a rede montada em B, D estiver fisicamente em B e montada em rede em A. Então isso dá origem a FS Distribuído.

Eu entendo que esses conceitos provavelmente estão errados. Embora algumas respostas declarem que metadados e dados estão em servidores separados em sistemas de arquivos paralelos, mas aqui também desejo entender como os metadados são gerenciados em sistemas de arquivos distribuídos?

Eu entendo que a pergunta é bastante longa, mas estou tentando colocar minha pergunta em termos simples e simples quanto possível.

    
por Puneet S. Chauhan 15.07.2015 / 08:18

1 resposta

1

AFAICS, o termo "sistema de arquivos paralelo" é marketing B.S. isso significa apenas que o driver do sistema de arquivos foi construído com o entendimento de que vários processos podem gravar arquivos ao mesmo tempo e, portanto, usa uma estratégia de alocação de bloco apropriada para gravar os arquivos contiguamente em diferentes partes do disco, em vez de fragmentá-los de cada um. Isso tem sido praticamente uma prática padrão em sistemas Unix por 20 anos.

Um sistema de arquivos em cluster é projetado para ser armazenado em uma SAN, onde o "disco" (que pode ser um conjunto de RAID implementado no hardware da caixa de disco SAN) está diretamente acessível a vários hosts (em um SCSI compartilhado). conexão), e assim podem ser montados simultaneamente por vários hosts ao mesmo tempo, já que os drivers do sistema de arquivos tomam um cuidado especial para não pisar um no outro. Isso é totalmente diferente de compartilhar um sistema de arquivos regular pela rede com NFS ou CIFS.

Um sistema de arquivos distribuído é mais parecido com um sistema de arquivos de rede, mas se comunica internamente com vários servidores para distribuir a carga entre eles, de uma maneira que é amplamente transparente para o usuário. Um exemplo é afs.

    
por 28.10.2015 / 02:58