Download da Wikipedia

1

Como posso baixar um conjunto específico do banco de dados da Wikipedia? Em particular, estou interessado em baixar todos os artigos que se enquadram no portal de matemática e possivelmente no portal de ciência da computação. Como posso fazer isso?

    
por bill 11.07.2013 / 10:59

4 respostas

3

Você pode usar um software chamado Kiwix , que é realmente fácil de usar.

EDITAR

O Wikipedia fornece uma ferramenta para extrair um subconjunto de seu conteúdo. Você pode pesquisar por "Matemática" aqui e, em seguida, exportar todos os artigos dessa categoria. Você obterá um arquivo .xml, no qual poderá navegar usando uma das ferramentas listadas aqui .

    
por 11.07.2013 / 14:24
2

Você pode usar a API do MediaWiki .

    
por 11.07.2013 / 12:06
2

Você pode obter o *-pages-articles.xml.bz2 do site de despejos de backup da Wikimedia e processá-los com WikiTaxi (download no canto superior esquerdo). A ferramenta Wikitaxi Import criará um arquivo .taxi (em torno de 15Gb para a Wikipedia) do arquivo .bz2 . Esse arquivo será usado pelo programa WikiTaxi para pesquisar artigos. A experiência é muito semelhante à experiência do navegador, com todos os artigos disponíveis até o momento do dump, mas sem as imagens.

Ou você pode usar o Kiwix mais rápido para configurar porque o banco de dados já está pronto (mas bem antigo), mas o WikiTaxi tem a vantagem de poder ter o conteúdo atualizado mais recente.

    
por 11.10.2013 / 15:26
1

vá para en.wikipedia.org na barra lateral esquerda, em "ferramentas", clique em "páginas especiais".

na nova página, em "ferramentas de página", clique em "exportar páginas".

na nova página, digite o nome de cada categoria desejada. por exemplo digite mathematics (como mostrado na figura abaixo) e clique em add.

entãovocêdeveinstalaroMediawikieirparaocaminhosimilareselecionar"importar páginas".

    
por 20.05.2014 / 19:27