Obtenha o título de todas as URLs em uma lista

0

Eu tenho uma lista enorme de URLs e quero obter o título de todos eles.

É possível? (sem realmente ter que visitar todos e cada um deles manualmente)

Estou usando o Windows 8

    
por laggingreflex 20.01.2014 / 13:57

1 resposta

2

Bem ... normalmente eu faria isso com o Linux, mas aqui está um pequeno batchfile que você pode usar no Windows: ( sites.txt conteria seus URLs)

sites.bat

@echo off
if exist titles.txt (del titles.txt)
for /f "tokens=*" %%a in (sites.txt) do (
  echo Checking %%a
  echo|set /p=%%a ;>> titles.txt
  wget --quiet -O - "%%a" 2> nul | sed -n -e "s!.*<title>\(.*\)</title>.*!!p" >> titles.txt
)
type titles.txt

O resultado será em titles.txt (com URL ; na frente para facilitar a importação em uma planilha)

Você precisa de wget e sed para Windows.

Você pode encontrá-los aqui:

wget para Windows
sed para Windows

Nota: isso usa um simples sed -command para extrair o título. Isso pode dar errado quando uma tag title também existe no corpo (ou não tem título). Se esse for o caso, você poderá encontrar verificações mais complexas aqui .

    
por 20.01.2014 / 15:02