Como listar as URLs de origem dos arquivos html salvos de uma pasta?

0

Eu tenho muitos arquivos html em uma pasta. Eu usei eles em um projeto. Eu quero construir um References.txt arquivo no qual o URL do qual cada arquivo html foi salvo será listado com o carimbo de hora em que foi salvo. Haverá um espaço entre cada URL e seus correspondentes timestamp.

Como posso fazer isso no Ubuntu 12.04 usando um comando de terminal ou script de shell?

Uma informação que pode ajudá-lo é a URL a partir da qual um html arquivo foi salvo está presente na segunda linha do arquivo html e isso também é visível ao abrir o arquivo em um navegador e depois indo para a exibição de origem. Mas eu não sei como extrair de lá usando um comando.

Primeiras duas linhas de um desses arquivos:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<!-- saved from url=(0084)http://www.forexrealm.com/technical-analysis/technical-indicators/typical-price.html -->
    
por Manojit Ghosh 31.05.2013 / 17:59

1 resposta

1

Execute o seguinte comando em um diretório contendo html files.

for f in *.html; do echo $(cat "$f" | sed -n '2p' | grep -o 'http://.*\.html') $(stat -c %y "$f");  done > References.tx

Script:

#!/usr/bin/bash

ref_file='References.txt';
> "$ref_file";

for html in *.html
do
    mtime=$(stat -c %y "$html")
    address=$(cat "$html" | sed -n '2p' | grep -o 'http://.*\.html')
    echo "$address $mtime" >> $ref_file;
done
    
por Basharat Sialvi 01.06.2013 / 00:49