Que software posso usar para fazer o download (download) de um wiki do MediaWiki? [fechadas]

5

Eu quero raspar um wiki inteiro que usa o software MediaWiki. A quantidade de páginas é muito pequena, mas elas têm muitas revisões e eu gostaria de recortar as revisões também.

O wiki não oferece dumps de banco de dados, ao contrário da Wikipedia. Existe algum software / scripts criados para raspar os sites do MediaWiki?

    
por apscience 05.02.2012 / 10:57

2 respostas

3

Se o mantenedor do wiki não o tiver desativado, você poderá exportar páginas com seu histórico por meio de Special: Exportar . Isso lhe dará um dump XML semelhante aos dumps do banco de dados da Wikipedia, que você pode importar para outro wiki.

Outra forma de obter o histórico de páginas do MediaWiki no formato XML é usar a consulta da API prop = revisões . No entanto, o formato de resultados da API é um pouco diferente daquele produzido pelo Special: Export, então você provavelmente terá que processar a saída um pouco antes de poder alimentá-la com scripts de importação padrão.

    
por 09.02.2012 / 00:37
5

Confira as ferramentas disponíveis no WikiTeam. link

Eu pessoalmente uso o dumpgenerator.py do wikiteam que está disponível aqui: link

Depende do python 2. Você pode obter o software usando o git ou baixar o zip do github:

git clone https://github.com/WikiTeam/wikiteam.git

O uso básico é:

python dumpgenerator.py http://wiki.domain.org --xml --images
    
por 05.08.2015 / 21:31