Alguma necessidade de fazer backup de dados no Amazon S3?

15

Estou hospedando 200 GB de imagens de produtos no S3 (este é meu host de arquivo principal).

Preciso fazer o backup desses dados em outro lugar ou o S3 é seguro?

Eu tenho experimentado com a montagem do bucket do S3 para uma instância do EC2 e, em seguida, fazer um backup rsync noturno. O problema é que são cerca de 3 milhões de arquivos, então demora um pouco para gerar as diferentes necessidades de rsync. O backup demora cerca de 3 dias para ser concluído.

Alguma ideia de como fazer isso melhor? (se é mesmo necessário?)

    
por Chrille 09.02.2012 / 16:34

5 respostas

4

Eu tenho feito pesquisas sobre isso, engraçado o suficiente.

Seus backups para o S3 podem falhar dependendo da sua região devido à consistência eventual; O aviso básico é que, se você fizer isso o suficiente, em algum momento você terá erros ao abrir ou encontrar arquivos, pois a mágica do sistema de arquivos no segundo plano da Amazon é sincronizada entre os servidores, portanto seus backups podem não ser confiáveis.

Para saber se você precisa salvá-los de outra forma, isso depende do seu gerenciamento de risco. Você confia na Amazon para manter seus dados?

É possível que eles percam algo ou tenham uma falha maior no sistema de armazenamento; eles sem dúvida têm cláusulas em seus contratos especificando que, se eles perderem seus dados, esse é o seu problema. Não é deles. Além disso, como seus dados estão hospedados em outro lugar, você não sabe o que eles farão com isso; aplicação da lei quer seus dados? Você pode até não saber que alguém o acessou.

Você confia nisto? Se os dados não forem fundamentais para o seu negócio e você estiver disposto a aceitar esse risco, não haverá necessidade de fazer o download para o armazenamento externo. Se você não estiver disposto a arriscar que seus dados estarão seguros nos servidores de armazenamento da Amazon, você deve tomar providências para despejá-los periodicamente em seu próprio armazenamento.

Em outras palavras, não acho que haja uma resposta direta para isso, pois depende da sua tolerância ao risco e das necessidades do negócio. Muitas pessoas não confiariam completamente em sua renda apenas com armazenamento na nuvem, pessoalmente, eu me sinto um pouco desconfiado disso ...

Para fazer isso melhor, em discussões e pesquisas, outra abordagem a considerar é a criação de um volume EBS grande o suficiente para armazenar os dados, anexá-los à instância do EC2, salvar seus dados lá e desmontar o volume e salvá-los. dados para S3. Estou no meio de pesquisar se isso seria feito salvando o próprio arquivo de volume no S3 ou no conteúdo ... mas você pode excluir a instância do EBS quando feito para economizar custos de armazenamento.

EDIT Vejo na releitura que você está salvando FROM S3 para a instância EC2, e não vice-versa (embora eu não saiba se o problema de consistência eventual ainda poderia causar problemas ). Você está tentando salvar dados em uma instância do EC2 como backup? Eu acho que o custo não é uma boa tática; Pode ser mais barato fazer o backup de uma unidade local quando você considera o armazenamento a longo prazo desse tipo de dados, juntamente com o tempo da VM. Com os custos de transmissão, você pode copiar os dados para um disco local como backup.

Eu ainda manteria os avisos sobre confiar na Amazon e no armazenamento deles. Se você quiser manter tudo no Amazon S3, mas tiver mais redundância, duplique os buckets do S3 entre as regiões e, se houver uma interrupção afetando uma região, ela não deverá eliminar todos eles. Você esperaria. Tudo é possível embora.

Tudo se resume a quanto você valoriza seus dados, quanto está disposto a pagar por isso e quanto risco deseja tolerar.

    
por 09.02.2012 / 16:37
4

Eu usei s3cmd s3cmd sync para fazer isso. É um pouco rsync-like em sua operação, e pode empurrar e puxar diretórios inteiros entre S3 e outro sistema Linux de sua escolha.

Não vejo nenhum motivo pelo qual você não tenha conseguido s3cmd sync para uma instância do EC2 em execução ou até para sua própria estação de trabalho do desenvolvedor (ou um servidor de armazenamento).

Você pode querer configurar uma instância de VPC e, em seguida, atribuir um pequeno nó dentro de sua VPC à função de servidor de backup e fornecer a ele um IP dentro da rede da Amazon, bem como dentro de sua sub-rede local. / p>     

por 09.02.2012 / 16:51
2

Meu conselho é que seus dados são de sua responsabilidade, não da Amazon. Se perder os dados não é tão importante, não faça o seu próprio backup. Se for, faça o seu próprio backup para (pelo menos) um JBOD barato (e verifique regularmente) como eu faço.

Você descobrirá quanta responsabilidade a Amazon está disposta a assumir pelos seus dados, no dia em que eles a perderem.

    
por 18.06.2012 / 16:24
0

Se você puder pagar (ao fazer isso), tenho todos os meus dados armazenados no meu servidor, mas os trago da Amazon s3. Portanto, se a Amazon ficar inativa por qualquer razão (touch wood), posso simplesmente extrair todos os meus dados instantaneamente do meu servidor. Do meu servidor eu faço backups mensais para minha unidade local. Como meu site é mais de 2TB no site.

    
por 24.10.2016 / 18:36
0

Embora este seja um tópico antigo, é a primeira coisa que surge quando o backup do Googling S3, então eu pensei em adicionar ...

Fazendo algumas pesquisas sobre isso, descobri o link do Rclone - é um software rsync-ish projetado para copiar entre serviços de armazenamento em nuvem e suporte a maioria deles. Nenhuma afiliação e eu ainda não usei, então não posso dizer se é bom ou ruim, mas achei que poderia ajudar alguém.

Parece-me que há uma oportunidade para um serviço hospedado que faz backups 'externos' de arquivos hospedados na nuvem (S3, Google Storage, Rackspace Cloud Files, etc.) ....

    
por 08.11.2017 / 19:11