Notepad ++ (possivelmente regex): excluir strings com determinado caractere nelas

0

Eu tenho uma lista de 24.000 entradas. Algumas linhas não todas possuem uma string contendo | neles:

680311  Kraszna Kraszna Crasna|Krasna|Kraszna   48.15   22.33333    H   STM HU  00  0   108 Europe/Budapest 2014-07-08
713845  Zsombékosdűlő   Zsombekosdulo   Zsombekos|Zsombékos 47.2    20.01667    P   PPLX    HU  HU  16  0   88  Europe/Budapest 2007-08-27
713828  Zvaradűlő   Zvaradulo   46.85   20.78333    P   PPL HU  03  0   81  Europe/Budapest 2007-08-27
672629  Maros   Maros   Marisus|Mures|Muresh|Muresul|Mureş|Mureşul|mwrysh   46.25   20.2    H   STM HU  HU|RO   00  0   81  Europe/Budapest 2009-04-06
677528  Gémesi Révház   Gemesi Revhaz   46.33472    18.89167    P   PPL HU  00  0   102 Europe/Budapest 2014-07-08
680145  Fekete-Körös    Fekete-Koros    Black Koros|Black Körös|Crisu Negru|Crisul Negru|Crişu Negru|Crişul Negru|Fekete-Koros|Fekete-Körös|Raul Crisu Negru|Râul Crişu Negru   46.7    21.26667    H   STM HU  00  0   88  Europe/Budapest 2012-01-18

A terceira e quintas linha é o que eu gostaria de ter para todas as linhas, então eu gostaria de remover completamente as seqüências que têm o | neles.

Então, a partir desta linha:

680311  Kraszna Kraszna Crasna|Krasna|Kraszna   48.15   22.33333    H   STM HU  00  0   108 Europe/Budapest 2014-07-08

teríamos:

680311  Kraszna Kraszna 48.15   22.33333    H   STM HU  00  0   108 Europe/Budapest 2014-07-08

EDITAR:

Existem espaços nos dados como na quinta linha com "Gémesi Révház" que deve ficar, também há espaços dentro das cordas a serem removidos, como na sexta linha "Black Koros | Black Körös | Crisu Negru .. "que deve ir embora junto com as cordas.

Eu estava procurando por guias e soluções de regex, mas não consegui encontrar nenhum para esse tipo de problema.

Isso pode ser feito com o notepad ++ ou notepad ++ e regex?

EDIT 2:

Nova pergunta criada porque o escopo mudou para extrair uma string e dois números: Notepad ++ e regex: extrai string e dois números da lista de linhas

Deixará esta pergunta como está, a discussão pode ser útil.

    
por xedemx 15.02.2017 / 11:19

1 resposta

0

Ctrl + h e depois

Encontrar com: [ \t]+[^ ]+\|[^ ]+[ \t]+
Substituir por:
(Em "Substituir por" use um único espaço e não se esqueça de mudar para "expressão regular")

P.S.

The good thing is that realized I only need the second column, the city name plus the location coordinates, which are the first two numbers starting either the 4th or 5th column. I will discard the rest of the data.

Seria muito mais fácil então:

Encontrar com: ^\d+\s+([^ ]+)[^0-9]+\s+([0-9\.]+)\s+([0-9\.]+).+$
Substituir por:

    
por 15.02.2017 / 11:42