Backups do servidor de conteúdo

4

Qual é a melhor maneira de fazer backup de dados em servidores de conteúdo? Por exemplo, eu tenho 15 servidores que apenas têm conteúdo, nenhum aplicativo é executado nele. Cada servidor tem um disco rígido de 250 GB. Então, é uma quantidade muito grande de dados. Todos os dados possuem acesso externo (via HTTP). Então, a questão é: qual metodologia é melhor no meu caso?

O método mais útil que conheço é o backup cruzado: quando cada servidor contém seus próprios dados e backup de outro servidor. Mas há uma redução significativa na capacidade total.

RAID?

    
por Peter Mortensen 22.03.2010 / 15:17

10 respostas

9

O RAID não é backup.

Agora que isso está fora do caminho, se você tiver 15 servidores que só armazenam conteúdo e cada um tem 250 GB, é hora de fazer algumas perguntas a você mesmo.

0) Os dados devem ser centralizados?

A menos que você goste de gerenciar o armazenamento em 15 computadores, provavelmente você deve gravar em um armazenamento gerenciado em pool. Isso vem com um custo, porém, o armazenamento é barato. O armazenamento gerenciado é caro. Se você não quiser (ou não pode) gerenciá-lo centralmente, então você precisa de uma solução de fita. A solução mais barata seria um servidor com uma grande quantidade de discos (em uma configuração RAID) conectada a um grande trocador de fita (de preferência, já que você não quer alterar manualmente as fitas todos os dias, eu suponho). Você também pode obter 15 unidades de fita e anexar cada uma a um servidor, mas isso é burro.

1) Qual é a sua política de retenção de dados?

Em outras palavras, você manterá os dados para sempre ou por um período limitado

2) Qual é o tamanho do seu delta?

Quanto seus dados mudam por dia? Isso precisa ser levado em consideração nos seus futuros planos de armazenamento. Compras de equipamentos não são apenas relacionadas a TI. A contabilidade precisa ser incluída. Se você depreciar suas compras ao longo de três anos, precisará adquirir um armazenamento que durará três anos. Faça as contas ou pague o preço mais tarde.

3) Onde você vai colocar?

15 * 250 = muitos dados, como você mencionou. Você tem que descobrir onde você vai colocá-lo. Se você quer que ele seja "ao vivo", você precisa obter um array de armazenamento de algum tipo. Se você quiser fazer o backup em fita, vai precisar de um trocador conectado a um servidor com algum armazenamento grande.

4) Quanto dos dados é uma cópia dos outros servidores?

Se você centralizar o armazenamento, terá a oportunidade de investir em um storage array com "deduplicação de dados", que economiza toneladas e toneladas (e toneladas) de espaço. Essencialmente, se um arquivo aqui tiver os mesmos dados de um arquivo ali, os dados serão armazenados apenas uma vez e um token será armazenado em cada lugar, que é menor que os dados originais. As soluções que fornecem isso são caras, no entanto.

Informe-nos mais sobre a topologia de rede atual, características de dados, especificações do servidor e o que mais você puder.

    
por 22.03.2010 / 15:29
5

O RAID não é um backup. Diga comigo e repita para si mesmo de novo e de novo. O RAID protege você da falha do equipamento, mas não do desastre.

Não importa o que você faça, ter um backup mantido off-line é essencial. Se alguém puder lixeira maliciosa ou acidentalmente todos os seus backups, porque eles estão todos on-line e acessíveis através da rede, seus backups não eram realmente backups. (Leia sobre o que aconteceu com "avsim.com" quando eles foram hackeados, se você quiser ver o que eu estou falando.)

    
por 09.06.2009 / 21:03
2
O

Raid só lhe fornecerá backups em caso de falha de hardware. O que você precisa é de um software de backup para fazer uma cópia duplicada de todo o conteúdo em outro servidor, de preferência em uma localização geográfica diferente.

Eu compraria um servidor de backup com algumas unidades de 1TB e faria backup de tudo para o servidor de backup.

    
por 09.06.2009 / 21:02
1

Tomou essa resposta de uma pergunta anterior sobre backups, pois acredito que ainda se aplique aqui (FYI foi minha resposta, não de outras pessoas):

Dependendo de quanto você precisa fazer o backup, recomendo o seguinte:

1.JungleDisk / Amazon S3 - funciona muito bem.

2.RSYNC para uma máquina remota também funciona muito bem. Trabalho CRON a cada XX horas.

Fazemos backup de quase uma TB de dados na nuvem S3 da Amazon e temos um "warm standby" em nosso backup de cores do mestre várias vezes ao dia (via rsync). O custo de transferência / armazenamento no Amazon S3 é extremamente barato. (ou seja, mais barato do que gravar para um DVD, mas não é mais barato do que fazer backup no HDD. Conheço algumas pessoas que simplesmente conectam um MyBank com 1 TB UB ou algo no servidor e fazem o backup semanalmente / mensalmente. Dependendo de suas necessidades um ou dois deles podem ser a solução mais barata para você.

Agora, estamos apenas falando sobre backups de DATA ... sem fazer o backup do próprio servidor ...

Dependendo de suas necessidades, o Norton Ghost ou até mesmo o Acronis ( link ) podem ser úteis para você. Coisas como o Norton Ghost tendem a depender da sua capacidade de realmente desligar o computador para fazer o backup. Alguns de nós não têm esse luxo, mas se você fizer isso, o Norton Ghost é um produto MUITO bom.

    
por 09.06.2009 / 21:05
1

O RAID não deve ser usado como uma solução de backup. Eu obteria unidades externas ou configuraria um servidor de backup com algo como o BackupPC e, em seguida, giraria os discos e armazenaria pelo menos uma cópia fora do local.

    
por 09.06.2009 / 21:06
0

Se você estiver disposto a gastar dinheiro, usaremos o R1Soft CDP em nossa plataforma. É muito bom.

    
por 09.06.2009 / 21:11
0

Que tipo de dados? Base de dados? arquivos regulares? Você precisa que seja uma sincronia ao vivo?

Algumas soluções de backup permitirão restaurações em qualquer ponto no caso de um banco de dados.

Também estamos entrando no triângulo de custo, qualidade e velocidade. Sacrifique um para obter os outros dois.

O custo, neste caso, é dinheiro. Qualidade é o detalhe do backup. (mais pontos para restaurar, valor fora do site) e Speed é o desempenho que você ganha ou perde com diferentes soluções.

Descobrir o que é mais importante pode ajudar você a decidir sobre uma solução.

    
por 09.06.2009 / 21:30
0

Algo como o MogileFS poderia ajudar neste exemplo. É uma solução de armazenamento em grande escala sem nenhum ponto de falha e, em vez de fazer backup do sistema como um todo, possui várias cópias dos dados espalhados pelo cluster. Unidades individuais (ou fusos) podem falhar, mas quanto mais importante for um arquivo, mais cópias dele existirão em torno do cluster. Miniaturas que podem ser facilmente recriadas podem ter apenas 1 ou 2 cópias, mas as imagens originais podem ter mais - de acordo com a classe de dados a qual o arquivo pertencia.

Técnicas semelhantes são usadas pelo Google e pelo Facebook para armazenar seus próprios arquivos.

    
por 03.10.2009 / 18:38
0

Bem, a arquitetura é:

15 servidores com servidor HTTP, todos os arquivos são regulares (sem bancos de dados, sem aplicativos) e disponíveis para downloads (projeto de compartilhamento de arquivos). eles estão sendo executados em MogileFS .

Alguns servidores de aplicativos, que eu não conto caso eles estejam vivendo a própria vida. O ponto dos backups é: se algo acontecer, distribuirei os dados do backup o mais rápido possível.

Então, eu disse sobre o RAID como uma opção, é claro que não é uma solução de backup, mas ajudará a reduzir o total de falhas.

Como uma opção real, vejo o Amazon S3 com sua API simples, na qual já tenho uma conta para o banco de dados diário backups.

E meu interesse é simples, só quero saber como as pessoas lidam com essas tarefas.

    
por 22.03.2010 / 15:21
0

Se você está falando sério sobre o backup de quase 4 TB de dados, o que você está falando com 15 servidores, cada um com 250 GB, você tem várias perguntas para responder.

1. Quanto dos dados já está duplicado intencionalmente ou não em todo o seu ambiente?
Se você tiver uma tonelada de dados duplicados, poderá reduzir bastante o espaço consumido e a quantidade de dados que precisa fazer backup.

2. Você pode centralizar os dados para um número menor de servidores?
Corrigir, licenciar e manter 15 servidores é um processo demorado quando eles podem ser consolidados em um NAS ou SAN . Combiná-los não representaria nenhum "risco de segurança" se as permissões fossem gerenciadas corretamente (essa foi a maior reclamação dos meus usuários quando consolidamos o armazenamento que eles sentiram se eles não tivessem seus próprios servidores para ver seus dados. A Education resolveu isso. Se eles não podem ser todos condensados por razões de geografia, isso é compreensível. Isso também mudará sua estratégia de backup, já que ninguém quer arrastar muitos dados através de uma WAN para backups.

3. Por que você está fazendo backup de seus dados? Recuperação do Disatser? Proteção contra exclusão acidental? Potencial falha de hardware? Tudo acima? Essas respostas direcionam sua janela de retenção e sua metodologia. Como outros disseram RAID só é bom contra falha de hardware, se você excluir um arquivo em um conjunto de RAID é tão bom quanto ido. Se você precisar recuperar coisas que os usuários excluíram, você precisa saber com que frequência os dados são usados. Um mês de backups em um arquivo que é usado apenas trimestralmente significa que você não terá o arquivo quando perceber que ele desapareceu. Eu não estou defendendo a manutenção de 3 meses de dados incrementais aqui, mas o término do mês de retenção, mantido por um ano, pode ser uma boa ideia. Se a recuperação de desastres é uma consideração, então você precisa pensar em obter seus dados fora do site, bem como fora dos servidores. Também saber por que você está fazendo backup dirá com que frequência você deve fazer o backup. Backups completos semanais com backups incrementais ou diferenciais noturnos são um método tradicional e um bom tipo de padrão, mas se os dados mudarem muito rapidamente ou muito lentamente, isso pode estar longe de ser suficiente ou com muita frequência.

4. Quanto orçamento você tem para backups? Esse será um fator determinante no que você acaba escolhendo. Para 4 TB de dados, tudo em um local, eu escolheria um pequeno alterador de fita de algum tipo e um software de backup para automatizar os backups. Ou possivelmente para uma unidade de backup baseada em disco com desduplicação. O backup cruzado é um pouco barato no início, mas não fornece nenhum valor de recuperação de desastre e fica mais caro à medida que seu conjunto de dados cresce. Também existem serviços por aí que podem fazer backup de seus dados pela Internet, mesmo nessa escala, de forma automatizada com criptografia e desduplicação, que podem funcionar melhor se seus dados estiverem em muitos sites.

    
por 22.03.2010 / 15:27

Tags