Extrai texto de um documento usando o notepad ++

1

Eu tenho um arquivo de texto do qual preciso extrair elementos de dados específicos.

Exemplo de texto:

HIABK>Z48812~HIAPR>Z48812~HI*ABF>I2510*ABF>K810*ABF>I10*ABF>J449*ABF>F329*ABF>F419*ABF>I252~NM1*71*1*Darbinian*Sevak****XX*1306859178~LX*1~SV2*0551*HC>G0154*250*UN*4~DTP*472*D8*20180202~REF*6R*74990814~HL*3*1*22*0~HIABK>N390~HIAPR>N390~HI*ABF>B9620*ABF>B961*ABF>N319*ABF>G8220*ABF>S12300S*ABF>G9520*ABF>Z1612~NM1*71*1*Boonyaputthikul*Robert****XX*1700198801~LX*1~SV2*0551*HC>G0154*250*UN*4~DTP*472*D8*20180125~REF*6R*74990810~

Eu quero extrair:

Darbinian Sevak 1306859178

Boonyaputthikul Robert 1700198801

Como pode fazer isso com o notepad ++?

    
por Missy 04.04.2018 / 17:10

1 resposta

2

Isso não pode ser feito em uma única etapa com o Notepad ++, você poderia fazer:

Primeiro passo:

  • Ctrl + H
  • Encontre o que: (?:^|\G).+?NM1\*71\*1\*(.+?)\*{4}XX\*(\d+)
  • Substituir por: $1 $2\n
  • check Embrulhe
  • verificar expressão regular
  • NÃO VERIFIQUE . matches newline
  • Substituir todos

Explicação:

(?:             : non capture group
  ^             : beginning of line
 |              : R
  \G            : position of last match
)               : end group
.+?             : 1 or more any character, not greedy
NM1\*71\*1\*    : literally "MN1*71*1*", asterisk have to be escaped
(.+?)           : group 1, 1 or more any character, not greedy
\*{4}XX\*       : 4 asterisks, XX, then 1 asterisk 
(\d+)           : group 2, 1 or more digit

Substituição:

$1      : content of group 1
        : a space
$2      : content of group 2
\n      : line feed, you could change it for the linebreak you need

Resultado para o exemplo dado:

Darbinian*Sevak 1306859178
Boonyaputthikul*Robert 1700198801
LX*1~SV2*0551*HC>G0154*250*UN*4~DTP*472*D8*20180125~REF*6R*74990810~

Em uma segunda etapa, você precisa excluir a última linha.

    
por 04.04.2018 / 20:38

Tags