Baixando um arquivo do Terminal

5

Estou tentando baixar um arquivo .txt usando o terminal. Aqui está o link (o download começa imediatamente você abre o link):

https://es.osdn.net/projects/sfnet_kaldi/downloads/wsj0-train-spkrinfo.txt

Eu tentei baixá-lo com o comando

wget "https://es.osdn.net/projects/sfnet_kaldi/downloads/wsj0-train-spkrinfo.txt"

Infelizmente, a única coisa que consegui depois de executar esse comando foi a fonte da página: (

Alguém poderia me dizer qual é a maneira correta de baixar esse arquivo do Terminal?

Obrigado antecipadamente!

    
por little_mice 25.02.2018 / 22:14

3 respostas

11

Se você seguir o HTML deles, eles fazem alguns truques para ocultar a fonte real do conteúdo.

O arquivo que você deseja baixar pode ser baixado da fonte em que ele está recebendo o comando:

 wget http://jaist.dl.sourceforge.net/project/kaldi/wsj0-train-spkrinfo.txt

Então, não é falta do conhecimento do Unix, no final do dia, eles estão apenas sendo obtusos de propósito.

Você também pode acessar todos os arquivos deste projeto (kaldi) em sua página principal no link (versão mais antiga , apontado por seu link original)

E indo lá, você vê que há uma versão mais nova no link

    
por 25.02.2018 / 22:35
1

Seu link "parece" um link de arquivo de texto que deve ser baixado da maneira que você tentou, usando wget - você fez tudo corretamente. O problema é que as pessoas que executam o site estão se comportando de maneira "complicada" - elas configuram o site para que o link não seja realmente um arquivo de texto e querem forçá-lo a navegar pela interface da Web e executar pelo menos mais um clique. Eu odeio esses sites, mas o seu conteúdo, por isso é suas regras.

Talvez outra pessoa avance com uma solução alternativa, mas esteja ciente de que nenhuma solução alternativa será genérica para todos os sites, ou mesmo para páginas diferentes no mesmo site.

    
por 25.02.2018 / 22:25
1

Como na verdade diz na própria página:

wget -O wsj0-train-spkrinfo.txt \
     'https://es.osdn.net/frs/g_redir.php?m=kent&f=kaldi%2Fwsj0-train-spkrinfo.txt'

Mas não há regra geral para isso, infelizmente, depende da implementação da página.

    
por 25.02.2018 / 22:30