Seria ótimo enviar um arquivo grande para o AWS EC2

0

Antecedentes:

Eu tenho lutado para instalar um servidor rstudio no AWS EC2 por algum tempo (desde novembro). Foi como se as camadas de uma cebola fossem descascadas, sempre outro obstáculo. Para um usuário do Windows, a documentação na AWS que eles publicam é terrível. Eu consegui criar instâncias do rstudio, mas experimentei problemas, que tenho certeza de que existem respostas fáceis, mas não tive sorte em resolvê-los e tentei muitas coisas. Eu estou apenas tentando carregar um arquivo para o rstudio, lê-lo e salvá-lo em algum lugar. Considerando a leitura em um arquivo primeiro, tive os seguintes problemas.

Leitura em um arquivo:

O botão de upload não aceita arquivos grandes. Para arquivos pequenos, isso funciona bem, mas qualquer coisa que exija um servidor para analisar não funciona através deste botão. Eu também tentei através de quatro navegadores diferentes para ver se é um problema do navegador, não foi. Arquivos pequenos não tiveram problemas (por exemplo, 40kb).

Colocar arquivos no dropbox e sincronizar com o rstudio não funcionou. A sincronização era adequada para arquivos pequenos (por exemplo, 200kb), mas os arquivos GB não seriam exibidos ou corrompidos.

Eu tentei conectar via Winscp e filezilla através de putty. Isso foi bem sucedido executando os comandos

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

e eu poderia fazer o upload para o rstudio. Infelizmente, depois desse ponto, não consegui mais acessar as instâncias. Eu poderia acessá-los via AWS, mas não poderia passar a tela de login do rstudio. Eu tentei isso muitas vezes, reiniciei e em muitos casos diferentes. Eu também contratei um freelancer para me ajudar e ele executou alguns outros comandos dos quais eu mantive uma cópia para acessar o rstudio da mesma maneira. No entanto, os arquivos podem ser transferidos com sucesso (mas muito lentamente), mas o acesso ao log através do navegador para a instância não estava mais disponível, então tirou minhas instâncias (eu poderia iniciar as instâncias, apenas não iniciar o rstudio).

Eu também tentei código em massa, como

rsync -avz myHugeFile.csv [email protected] :

Mas pode ser que eu não soubesse como colocar a localização de myHugeFile.csv no meu computador (embora eu tenha tentado muitas coisas), mas não funcionou.

Eu consegui fazer o upload para uma pasta tmp na unidade raiz do AWS EC2 e posso usar o putty para mover os arquivos, mas o upload de um arquivo de 10 GB levou 36 horas. Eu acho que isso não é normal. Quando os arquivos chegam, são muito menores do que eram originalmente e ficaram corrompidos.

Estou usando a AMI de louis aslett on rstudio que você obtém se digitar rstudio em AMIs da comunidade na plataforma amazon quando configurar minha instância.

Não é um problema de tamanho de instâncias, já que as instâncias de Ram de 244 GB e as de 120 GB são a maioria.

Se é possível fazer o upload de arquivos grandes para o dropbox e tê-los com o rstudio server, isso seria ótimo (no momento apenas arquivos pequenos são sincronizados). Alternativamente, ser capaz de usar o botão de upload. Ou praticamente qualquer solução seria incrível. Eu criei um bucket S3, pois talvez seja mais fácil assim, eu suspeito que o Amazon pode limitar a capacidade de fazer upload para o EC2 através de outras rotas. Mas isso parece loucura para mim.

Por favor, deixe-me saber se você tem alguma idéia sobre como fazer qualquer uma dessas etapas funcionar.

    
por Joey 01.02.2016 / 03:45

1 resposta

0

Ok, então percebi o que estava acontecendo aqui. O tamanho do diretório inicial padrão para o AWS é menor que 8-10GB, independentemente do tamanho da sua instância. Como este como tentar fazer o upload para casa, então não havia espaço suficiente. Um usuário experiente do linux não teria caído nessa armadilha, mas esperançosamente qualquer outro usuário do Windows novo a este que se deparar com este problema verá isto. Se você fizer o upload em uma unidade diferente na instância, isso poderá ser resolvido. Como o Louis Aslett Rstudio AMI é baseado neste espaço de 8-10GB, então você terá que configurar seu diretório de trabalho fora deste, o diretório inicial. Não intuitivamente aparente da interface do servidor Rstudio. Embora este seja um fórum avançado e este seja um erro de novato, eu espero que ninguém elimine essa questão, pois passei meses nisto e acho que outra pessoa também. Se alguém tiver uma maneira melhor de contornar isso, sinta-se à vontade para adicioná-lo:)

    
por 02.07.2016 / 06:15