Como posso baixar uma cópia de um conjunto de dados públicos do S3?

3

eu estava ingenuamente assumindo que poderia fazer algo como

s3cmd sync s3://snap-d203feb5 /var/tmp/copy

mas eu pareço ter a idéia errada de como fazer isso. Eu não posso nem fazer uma coisa simples para trabalhar;

vnix$ s3cmd ls s3://snap-d203feb5
Bucket 'snap-d203feb5':
ERROR: Bucket 'snap-d203feb5' does not exist

Eu acho que o identificador que eu tenho não é para um "bucket", mas para um "conjunto de dados públicos". Como eu vou de um para o outro? Preciso iniciar uma instância do EC2 e criar um bloco para isso? Como? As instruções no link parecem pressupor que eu queira usar os dados em uma instância do EC2, mas neste caso, gostaria apenas de navegar um pouco, pelo menos para começar.

Por fim, copiar / colar o "ID de instantâneo dos EUA" causa um rastreamento desagradável do Python; eles publicam o ID com um traço Unicode (presumo) estranho que não pode ser copiado / colado diretamente. Existe um erro quando eu copio? E qual é o significado de "EUA" lá? Não posso usar os dados fora da América do Norte?

    
por tripleee 03.09.2012 / 23:16

1 resposta

5

Os conjuntos de dados públicos não estão hospedados no Amazon S3 , sendo fornecidos como Instantâneos do Amazon Elastic Block Store (EBS) . Embora eles sejam armazenados no S3, na verdade, não é possível acessar um snapshot diretamente, em vez disso, é necessário criar um novo Volume do EBS e anexá-lo a uma instância do Amazon EC2 para processamento posterior a seu critério .

Navegar no conjunto de dados é um caso de uso razoável, claro, mas infelizmente você não pode evitar usar uma instância do EC2 e um volume do EBS - veja a seção Como funciona para detalhes:

Select public data sets are hosted on Amazon EC2 for free as Amazon Elastic Block Store (Amazon EBS) snapshots. Amazon EC2 customers can access this data by creating their own personal Amazon EBS volumes, using the public data set snapshots as a starting point. They can then access, modify and perform computation on these volumes directly using their Amazon EC2 instances [...]

To get started using the Public Data Sets on AWS, simply perform these three easy steps:

  1. Sign up for an Amazon EC2 account.
  2. Launch an Amazon EC2 instance.
  3. Create an Amazon EBS volume using the Snapshot ID listed in the catalog above for your chosen snapshot.

Como essas etapas são executadas em detalhes é explicado na documentação que você já vinculou, ou seja, Iniciando uma instância e Criando um volume de conjunto de dados públicos .

Depois de disponibilizá-lo, você pode armazenar o conjunto de dados em um intervalo S3 claro.

    
por 05.09.2012 / 00:10