Eu instalei e executei o Heritrix Web Crawler. Ele armazenou dados em arquivos .arc.gz

0

Se você usou o Heritrix Web Crawler, agradecemos sua ajuda.

3 perguntas:

  1. Um arquivo de arco provavelmente contém códigos-fonte de MUITAS páginas nele. Como faço para descobrir qual é qual?
  2. Como interpreto os arquivos .arc.gz? Eu os abri no VIM e percebi que havia código HTML + lixo (que eu não posso nem analisar usando Python SGMLParser por causa do lixo).
  3. Recomenda-se compactar? (.gz)

Basicamente, não tenho idéia do que são os arquivos .ARC e o que posso fazer com eles. Estou acostumado a usar o URLLIB2 para baixar e analisar HTML manualmente.

    
por Alex 15.10.2009 / 00:31

1 resposta

3

Ela é um link para baixar o ArcReader e uma explicação: link .

Eu pesquisei para ler arquivos de arco e este foi o primeiro link.

Primeiro você precisa descompactar os arquivos (eles são gzipados, daí a extensão .gz). Então você pode ler o arquivo ARC.

    
por 15.10.2009 / 00:41