O que significa “acesso a dados em fluxo contínuo” no HDFS?

2

De acordo com a página da Arquitetura HDFS, o HDFS foi projetado para "acesso a dados em fluxo contínuo". Não tenho certeza do que isso significa exatamente, mas acho que isso significa que uma operação como a de busca é desabilitada ou tem um desempenho abaixo do ideal. Isso seria correto?

Estou interessado em usar o HDFS para armazenar arquivos de áudio / vídeo que precisam ser transmitidos para os clientes do navegador. A maioria dos córregos será iniciada, mas alguns podem ter um grande número de pesquisas.

Talvez haja outro sistema de arquivos que possa fazer isso melhor?

    
por Van Gale 14.07.2009 / 12:13

3 respostas

2

O fluxo apenas implica que ele pode oferecer uma taxa de bits constante acima de um certo limiar ao transferir os dados, em vez de fazer com que os dados entrem em rajadas ou ondas.

Se o HDFS for projetado para streaming, ele provavelmente continuará a oferecer suporte, com um pouco de sobrecarga necessária para armazenar em cache os dados para um fluxo constante.

Claro que, dependendo da carga do sistema e da rede, suas buscas podem levar um pouco mais de tempo.

    
por 14.07.2009 / 13:29
3

O HDFS armazena dados em grandes blocos - como 64 MB. A ideia é que você queira que seus dados sejam colocados em sequência em seu disco rígido, reduzindo o número de buscas que seu disco rígido precisa fazer para ler os dados.

Além disso, o HDFS é um sistema de arquivos do espaço do usuário, portanto, há um único nó de nome central que contém um diretório na memória de onde todos os blocos (e suas réplicas) são armazenados no cluster. Espera-se que os arquivos sejam grandes (digamos, 1 GB ou mais) e sejam divididos em vários blocos. Para ler um arquivo, o código pede ao nó do nome uma lista de blocos e depois lê os blocos sequencialmente.

Os dados são "transferidos" do disco rígido mantendo a taxa máxima de E / S que o inversor pode sustentar para esses grandes blocos de dados.

    
por 28.05.2010 / 02:13
0

Para dados de streaming do Hadoop: o guia definitivo, 3ª edição :

HDFS is built around the idea that the most efficient data processing pattern is a write-once, read-many-times pattern. A dataset is typically generated or copied from source, and then various analyses are performed on that dataset over time. Each analysis will involve a large proportion, if not all, of the dataset, so the time to read the whole dataset is more important than the latency in reading the first record.

    
por 11.01.2013 / 13:21