Como eu removo o documento HTML do MS Word 2010 com Find / Replace Wildcards / Regex?

1

Eu encontrei um site para me ajudar a escolher nomes de domínio. Eu tenho minha lista de produtos que não posso exportar, mas preciso compartilhar a lista com alguns outros membros da equipe primeiro. Ele também não me permite copiar e colar a lista de domínios.

Com meu conhecimento limitado, cliquei em inspecionar elemento, editar como HTML, copiar e colar no MS Word 2010. Então, fiquei com um monte de HTML parecido com isto:

<div id="cartList">
<div id="cartdomain_mydomain1.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain1.com">mydomain1.com</div>
</div>
<div id="cartdomain_mydomain2.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain2.com">mydomain2.com</div>
</div>

Como faço para remover todo o código HTML, então só tenho mydomain1.com, mydomain2.com em uma lista de texto simples?

    
por user325124 20.05.2014 / 11:51

1 resposta

0

Certifique-se de ter o painel " Mais > > " desdobrado e de selecionar " Usar curingas ". Você pode então usar esta expressão:

Encontre o que : \<div id="cartdomain?*\<div title="([!"]*)"?*\</div\>?*\</div\>

Substituir por :

Ao clicar em "Substituir tudo", você ficará com sua primeira linha ( <div id="cartList"> ) seguida de tudo o que estiver no parâmetro "título".

O MS2010 não usa a sintaxe regex padrão e é muito limitado. A maneira como a expressão funciona é:

  • < e > são delimitadores especiais, eles precisam ser escapados com \
  • ?* é basicamente o equivalente a .*? : corresponde a qualquer número de qualquer caractere, não avidamente
  • os parênteses são usados para definir um bloco de captura, que é referido como no campo With:
  • [!"]* significa "qualquer número de qualquer caracter que não seja aspas duplas"
por 20.05.2014 / 14:10