Eu tenho uma lista de 24.000 entradas. Algumas linhas não todas possuem uma string contendo | neles:
680311 Kraszna Kraszna Crasna|Krasna|Kraszna 48.15 22.33333 H STM HU 00 0 108 Europe/Budapest 2014-07-08
713845 Zsombékosdűlő Zsombekosdulo Zsombekos|Zsombékos 47.2 20.01667 P PPLX HU HU 16 0 88 Europe/Budapest 2007-08-27
713828 Zvaradűlő Zvaradulo 46.85 20.78333 P PPL HU 03 0 81 Europe/Budapest 2007-08-27
672629 Maros Maros Marisus|Mures|Muresh|Muresul|Mureş|Mureşul|mwrysh 46.25 20.2 H STM HU HU|RO 00 0 81 Europe/Budapest 2009-04-06
677528 Gémesi Révház Gemesi Revhaz 46.33472 18.89167 P PPL HU 00 0 102 Europe/Budapest 2014-07-08
680145 Fekete-Körös Fekete-Koros Black Koros|Black Körös|Crisu Negru|Crisul Negru|Crişu Negru|Crişul Negru|Fekete-Koros|Fekete-Körös|Raul Crisu Negru|Râul Crişu Negru 46.7 21.26667 H STM HU 00 0 88 Europe/Budapest 2012-01-18
A terceira e quintas linha é o que eu gostaria de ter para todas as linhas, então eu gostaria de remover completamente as seqüências que têm o | neles.
Então, a partir desta linha:
680311 Kraszna Kraszna Crasna|Krasna|Kraszna 48.15 22.33333 H STM HU 00 0 108 Europe/Budapest 2014-07-08
teríamos:
680311 Kraszna Kraszna 48.15 22.33333 H STM HU 00 0 108 Europe/Budapest 2014-07-08
EDITAR:
Existem espaços nos dados como na quinta linha com "Gémesi Révház" que deve ficar, também há espaços dentro das cordas a serem removidos, como na sexta linha "Black Koros | Black Körös | Crisu Negru .. "que deve ir embora junto com as cordas.
Eu estava procurando por guias e soluções de regex, mas não consegui encontrar nenhum para esse tipo de problema.
Isso pode ser feito com o notepad ++ ou notepad ++ e regex?
EDIT 2:
Nova pergunta criada porque o escopo mudou para extrair uma string e dois números: Notepad ++ e regex: extrai string e dois números da lista de linhas
Deixará esta pergunta como está, a discussão pode ser útil.