Posso usar o AWS para download, armazenamento e computação?

0

Existe um projeto meu, que exige que cerca de 1,2 TB de dados sejam baixados da Internet e que sejam executados scripts sobre ele, para convertê-lo em outro resultado final. Então, eu posso ver três problemas aqui:

  1. O download: não consigo baixar essa quantidade de dados do meu laptop devido à baixa taxa de download.
  2. O armazenamento: Os arquivos baixados devem ser armazenados em algum lugar. Mais uma vez, meu laptop não tem memória suficiente para fazer isso (já que ele pode fazer o download dos arquivos magicamente)
  3. O processamento: Depois de baixado e armazenado, eu preciso executar scripts sobre os arquivos para obter o resultado final. Dado o enorme tamanho da entrada, isso não pode ser feito pelo meu laptop, em um tempo razoável.

Portanto, vejo apenas AWS como uma opção. Eu olhei em alguns dos produtos oferecidos por eles, e da superfície parece que a parte de processamento pode ser feita pelo produto chamado EC2 (Elastic cloud computing), e o armazenamento pode ser feito pelo produto chamado S3 , armazenamento escalável.

Não consegui encontrar nada que atenda às minhas exigências de download .

Então, posso usar a solução acima para também fazer o download dos dados?

    
por Mooncrater 22.05.2018 / 11:54

1 resposta

4

As instâncias do EC2 são basicamente servidores regulares que executam um sistema operacional, que não apenas permite executar as tarefas de processamento de dados, mas também qualquer outra etapa, como o download, especialmente se o download for uma tarefa complexa.

Você configuraria uma instância do EC2 que monta permanentemente um bucket S3 no sistema operacional sistema, em seguida, criar um script (por exemplo, um script shell) que regularmente ou semi-regularmente baixa os dados e armazena-lo no balde.

Uma opção ainda mais simples seria usar AWS Lambda para executar o download no S3 sem ter que ativar um servidor EC2, o que significa que você pode fazer o processamento de forma independente e também evitar a transferência dos dados para o servidor primeiro e depois para o S3.

Observe que qualquer operação de dados terá um determinado preço, portanto, leia as políticas de preços do EC2 e do S3 e calcule os custos experimentais .

    
por 22.05.2018 / 12:07