Eu encontrei-me tendo que usar um script Python para acessar um arquivo da web.
O que eu tenho é um arquivo web 'megawarc' de http://archive.org/details/archiveteam-fanfiction-warc-11
. Eu preciso un-megawarc isso, usando o script Python encontrado no link .
Estou tentando executar o comando restore
e tenho os três arquivos necessários (FILE.warc.gz, FILE.tar e FILE.json.gz) no primeiro link.
Eu tenho o Python 2.7 e 3.3 instalado.
Atualização:
Eu corri ambos os métodos:
python megawarc restore FILE
E este método:
Make sure you have the files
megawarc
andordereddict.py
in the same directory, with the files you want to convert. Rename the filemegawarc
tomegawarc.py
Open a Python console in this directoryType the following code (line by line) :
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main () usando python 2.7, e é isso que eu recebo ..
c:\Python27>python megawarc restore FILE
Traceback (most recent call last): File "megawarc", line 563, in main()
File "megawarc", line 552, in main mwr.process()
File "megawarc", line 460, in process self.process_entry(entry, tar_out)
File "megawarc", line 478, in process_entry entry["target"]["offset"], entry["target" ["size"])
File "megawarc", line 128, in copy_to_stream raise Exception("End of file: %d bytes expected, but %d bytes read." % (buf_size, l))
Exception: End of file: 4096 bytes expected, but 236 bytes read.
Há algo mais que eu estou sentindo falta?
Eu tenho todos os arquivos a seguir em C:\python27
:
FILE.tar.megawarc.json.gz
FILE.tar.megawarc.tar
FILE.tar.megawarc.warc.gz
megawarc
ordereddict.py
Isso é algum tipo de erro de arquivo corrompido? Algum tipo de erro de buffer? Há algo que estou perdendo?