Web raspando / rastreando um site específico

0

Estou tentando copiar 1265 arquivos html de uma só vez para obter o nome e as descrições dos itens que tenho em um site.
Eu tenho permissão do atacadista para copiar os dados, mas eu não quero passar dias apenas para obter descrições, então existe uma maneira de raspar os dados no seguinte formato?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

e

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

o que eu quero fazer é copiar as informações entre

  <div id="CWproductInfo"> and <p class="CWcontShop">

então eu fiquei com

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

mas a partir de várias páginas de uma só vez melhor ainda se puder colocar em uma planilha

    
por Jamie 25.07.2014 / 22:55

1 resposta

1

Eu tentaria o Power Query Add-In para isso - ele pode passar por cima das páginas do site e extrair dados delas, contanto que as páginas e suas URLs sejam consistentes.

Veja um exemplo:

link

    
por 28.07.2014 / 09:22