Posso procurar artigos da wikipedia na linha de comando?

0

Eu tenho uma lista de autores conhecidos para os quais estou tentando encontrar dados, especificamente seu gênero e nacionalidade. Existe uma maneira de consultar isso na linha de comando? Como curl something-magic.com 'Frances Burney' e tê-lo recuperar um belo parágrafo que eu posso então para obter informações sobre sexo e nacionalidade? Ou melhor ainda, algo mais estruturado que eu possa analisar mais facilmente? Estou no Linux, se isso ajuda.

    
por Jon 14.03.2016 / 02:44

1 resposta

1

Se você tiver sorte e seu autor existir no wiki E o nome dele / dela existir lá apenas uma vez (não ambíguo), você poderá usar essa abordagem:

$ cat mywiki.sh

NAME=$(echo $@ | tr " " "_")

wget -O $NAME.html https://en.wikipedia.org/wiki/$NAME
lynx -dump $NAME.html > $NAME.txt
dataurl=$(awk 'sub(/.*www.\wikidata\.org/, "http://wikidata.org") {print; exit}' $NAME.txt)
lynx -dump -nolist $dataurl > $NAME.dat

Dessa forma, você terá o código html da página, um txt com a mesma informação, mas sem tags html e um dat com os dados principais do autor (e a página wiki) nas linhas de fatos. Outro script de filtro pode ser escrito para filtrar esses arquivos e escrever uma tabela csv / html que, quando aberta, é fácil ter uma visão geral do que deve ser pesquisado manualmente.

    
por 14.03.2016 / 09:36