Estou usando o Google Cloud e, em um dos blocos (GCS), tenho uma pasta com subpastas e cada subpasta tem arquivos zip de aproximadamente 600 MB a 1,5 GB cada. Se eu tenho que dar a contagem dos arquivos zip eu diria que eles são aproximados sobre 2000 + arquivos zip.
Cada arquivo zip possui arquivos CSV de tamanhos variados. Eu tenho que descompactar cada arquivo e, em seguida, ler o arquivo csv e fazer operações neles. Meu problema é que não consigo descompactar os arquivos no próprio repositório. Agora, por meio de um script de shell, estou lidando com uma subpasta de cada vez com meu diretório de trabalho atual, descompactando-o e gravando de volta no bucket do GCS e excluindo os dados antigos de descompactação e assim por diante. Eu estou fazendo a sub pasta um de cada vez, porque se eu tentar copiar tudo de uma só vez meu diretório de trabalho atual fica sem espaço Eu precisarei fazer a atividade acima quando eu conseguir novos dados e obter novos dados será freqüente Existe uma maneira melhor ou uma maneira mais inteligente de descompactar os arquivos no próprio Bucket (GCS).
Tags cloud-storage