Captura de dados XPath da comunidade on-line usando o Excel

0

Recentemente, li este artigo sobre como analisar o perfil de membros da comunidade Inbound.org usando o Excel . E você pode assistir ao vídeo aqui se preferir assim.

Desde o lançamento deste tutorial, a estrutura do site Inbound mudou um pouco, como você pode ver no minuto 11:00 no vídeo, se você tentar copiar o XPath dos ícones de mídia social, ele parecerá um pouco diferente e porque disso eu não consegui extrair essa informação.

Aqui está o que eu recebo agora:

/html/body/div[3]/div/div/div[1]/div/div[2]/a[1]/i

Foi assim que escrevi a sintaxe no Excel:

=XPathOnUrl(A2,"//a[@class='twitter']","href")

E então assim:

=XPathOnUrl(A2,"//a[contains(@class,twitter)]/@href")

Embora eu tenha tentado de muitas maneiras diferentes, nenhuma delas me mostrou o link para o perfil de mídia social do membro.

Eu até tentei alterar o xpath de várias maneiras para obter dados diferentes da página, mas nada disso era a informação da mídia social:

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/div[1]")

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/h1")

Eu honestamente não sei mais o que tentar, algo está errado e não consigo entender. Alguém tem experiência suficiente com isso ou pode identificar o problema aqui com a minha sintaxe?

Muito obrigado

    
por Duraid 01.05.2015 / 18:46

1 resposta

0

De acordo com o Firefox / Firebug, o XPath exclusivo para uma URL do Twitter de usuários é:

/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]

O que é um pouco diferente da sua primeira tentativa. NB: Eu alterei minha primeira tentativa, você não quer o /i no final ou você obtém o elemento interno não o <a> com o URL nele.

Mas sua segunda tentativa certamente encontra o elemento HTML correto que contém o URL e é mais robusto.

Sua terceira tentativa não funciona com XPathOnUrl, embora funcione no ImportXML do Google Docs, pois não suporta a sintaxe do atributo.

    
por 01.05.2015 / 19:27