Faça o upload de grandes arquivos on-line para o google cloud

1

Gostaria de enviar arquivos de imagem grandes para o google cloud para fins de aprendizado de máquina no RStudio.

Cada zip de imagem tem cerca de 4,7 gb e demora mais tempo a descomprimir do que a transferir. Gostaria de saber se existe uma maneira de fazer upload dos arquivos de imagem para o google cloud usando o URL atual do Kaggle, como: https://www.kaggle.com/c/5174/download/Images_1.zip  ou https://www.kaggle.com/c/avito-duplicate-ads-detection/data e extraí-los rapidamente no VM RStudio para análise de dados?

    
por lydias 07.03.2018 / 04:04

1 resposta

3

Você instalou o RStudio em uma VM Linux? Se assim for, você pode usar ssh em sua instância usando o comando sudo gcloud compute ssh <your-instance-name> --zone <your-instance-zone> e, em seguida, usar wget dentro da sua instância para baixar o arquivo:

wget https://www.kaggle.com/c/5174/download/Images_1.zip

O wget pode ser desconectado durante o download, mas você pode usar as opções descritas acima no link que irá ajudá-lo a tornar o download bem-sucedido, como as opções -t e -c para tentar o download mais vezes ou continuar obtendo um arquivo parcialmente baixado, respectivamente.

Após o download do arquivo, você pode usar 7ZIP para descompactar o arquivo no diretório em que foi baixado usando o comando : 7z e Images_1.zip
Você pode copiar o arquivo para um bucket do GCP usando o comando:% gsutil cp Images_1 gs://<your-bucket-name>

Se o wget e o 7zip não estiverem instalados na VM, você poderá instalá-los de acordo com as instruções, wget e 7zip , como segue. Estes exemplos são para VMs do Ubuntu ou Debian Linux:

sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full

Basta seguir as instruções de instalação.

    
por 08.03.2018 / 12:44