Armazenando grandes quantidades de dados

2

Digamos que eu gostaria de armazenar 40 terabytes de dados para acesso freqüente, principalmente arquivos de mídia, por meio de uma interface da web. Devo construir 4 computadores com 10 terabytes cada? Alguma limitação que eu deveria saber? O que seria apropriado?

Estou falando de servidores em rack Linux.

    
por user35692 22.02.2010 / 19:12

5 respostas

4

Você pode querer analisar uma solução de SAN. Eu trabalhei com um cliente que tinha grandes necessidades de dados. Eles estavam adicionando TB's de novos dados fornecidos pelo usuário todos os meses. Devido ao orçamento, optamos por discos SATA baratos em RAID 5 e abarrotamos o máximo que pudemos em um servidor 2U. Isso funcionou por um tempo, mas à medida que eles continuavam crescendo, problemas de desempenho, escalabilidade e gerenciamento surgiram.

Soluções como EqualLogic, NetApp e outras fornecem alta escalabilidade e boas ferramentas de gerenciamento - elas têm etiquetas de preço para corresponder.

Você não especificou a largura de banda que espera usar, mas pesquisar soluções baseadas em nuvem que também fornecem serviços de entrega pode ser outra opção, especialmente se você estiver procurando uma solução de pagamento à medida que for indo.

Temos acesso ao CDN da Internap através de um de nossos parceiros. Podemos armazenar dados em seus sistemas e depois entregá-los via CDN. Eu nunca perguntei sobre 40 TB de armazenamento, mas não acho que isso seja um problema.

Se você construir 4 sistemas de 10TB, precisará esclarecer estas questões: 1) Quantos nós de servidores front-end irão se conectar a eles? 2) Com que frequência os arquivos serão acessados? 3) Como você planeja fazer backup dos dados? 4) Qual método de conexão você usará NFS, GFS, iSCSI? 5) Como os requisitos de tráfego / armazenamento serão alterados ao longo do tempo?

Todas essas considerações são muito importantes para escolher uma tecnologia. Embora a construção de 4 sistemas de 10 TB possa ser fácil e relativamente barata, se eles não conseguirem lidar com as cargas de serviço em 3 a 5 meses, seu dinheiro terá sido desperdiçado.

Dica: Muitas vezes, com sites de compartilhamento de mídia (se é isso o que é isso), alguns arquivos são mais populares do que outros. 10-20% do seu conteúdo total pode representar > 80% do seu tráfego total. Nesse caso, você pode considerar sistemas de armazenamento "rápidos" e "lentos". Mantenha as coisas populares no sistema rápido e arquive o sistema mais lento.

    
por 22.02.2010 / 21:32
0

Dependerá da importância dos dados, do tipo de rendimento de que você precisa, do seu orçamento, das tecnologias que você deseja administrar (ou quais são suas terceirizações confortáveis ou aprendizado) e de outros fatores.

Por exemplo, você pode pegar um servidor relativamente barato, abrir um SAS HBA com porta (s) extral (s) nele e, em seguida, montar alguns gabinetes de unidade. Carregue um SO com o software iSCSI Target, e você terá uma SAN realmente barata.

Alternativamente, você pode comprar soluções SAN pré-construídas, como as caixas Lefthand da HP. Isso torna a configuração e a administração muito fáceis, mas isso tem um custo.

Eu trabalhei com especialistas em armazenamento da CDW em vários projetos no passado, desde que eles saibam o que você está procurando, eles sempre passaram por mim. Ter metas bem definidas e conhecer seus limites é um fator-chave para implantar uma SAN bem-sucedida.

    
por 22.02.2010 / 21:51
0

Faça um favor a si mesmo e fale com a Nexenta. Acabei de criar uma solução de 40 TB com 2TB de SSD para SQL / Data builds rápidos, por menos de £ 95K - o que inclui uma configuração Citrix Xenserver de alta especificação na configuração DR com 10Gb!

    
por 23.02.2010 / 12:13
0

Se você precisar deste armazenamento para um aplicativo da Web, e não algo como um banco de dados, veja o mogilefs:

link

Pode ser facilmente dimensionado para 40 TB, sem custar US $ 100.000. É praticamente o oposto de uma SAN.

    
por 23.02.2010 / 13:35
0

Você já olhou para o gluster? não é super rápido (embora seja para algumas pessoas), mas faz muito do que você está procurando, e pode ser tolerante a falhas e altamente disponível. Do meu ponto de vista, trata-se apenas do único cluster de HA e FT livre que funciona hoje. Um servidor cai, seus clientes não percebem. Usa o FUSE para os clientes, então Linux, muitos outros Unixes, algum grau de suporte a ganhos (eu acho).

E é grátis, com uma opção paga. Ele também pode falar NFS ou smb / cifs (sem HA, porém, é necessário montar outro servidor se o que você estiver falando estiver inativo). Para os arquivos da lista de discussão: link

link para a parte gratuita link para a parte paga

Então, novamente, como outros já disseram, já que isso é para o seu aplicativo, o mogilefs e vários outros podem ser os melhores.

    
por 24.02.2010 / 07:27

Tags