Combina arquivos de texto por título usando o grep awk sed

0

Estou tentando combinar vários arquivos em um arquivo final. Cada arquivo tem muitas entradas dentro deles, a maioria com títulos sobrepostos. Eu gostaria de mesclar conteúdo entre ambos, sob os títulos do título. Pense em combinar dois dicionários e faz mais sentido. Entradas para uma única palavra podem ser encontradas em ambas, mas as definições diferem ligeiramente em cada uma delas. Algumas entradas existem em uma e não na outra, etc.

Por exemplo, gostaria de mesclar esses dois arquivos para produzir um único arquivo de saída:

Arquivo 1

Entry 1
Green Trees
Entry 3
Orange Fibers

Arquivo 2

Entry 1
Red Trees
Entry 2
Spotted Zebras
Entry 3
Blue Fibers

Arquivo de saída

Entry 1
Green Trees
Red Trees
Entry 2
Spotted Zebras
Entry 3
Orange Fibers
Blue Fibers

Observe que a entrada 2 não existia no Arquivo 1, mas chegou ao produto final. Da mesma forma, o conteúdo de cada entrada foi mesclado em qualquer lugar em que o ID de entrada corresponda.

Como posso conseguir isso?

EDIT: O acima é uma versão simplificada para fazer a pergunta. Abaixo está uma amostra das entradas reais nos arquivos.

O $$$ 00001 é o título da Inscrição.

Do arquivo 1

$$$00001
<b><br>- Original: Α<b><br></b></b>- Transliteration: A<b><br></b></b>- Phonetic: al'-fah<b><br></b></b>-...
$$$00002
<b><br>- Original: script<b><br></b></b>- Translitera...

Do arquivo 2

$$$00001
<b><br>α<b><br></b></b>a; indeclinable...
$$$00002
<b><br>texts<b><br></b></b>A...
    
por Matt Zabojnik 10.04.2018 / 10:18

1 resposta

1

Um simples awk one-liner resolve seu exemplo:

awk '/^Entry/{k=$0;next}{g[k]=g[k]"\n"$0}END{for(k in g)print k g[k]}' file1 file2

Suponho que você saiba que basicamente awk processa as linhas de entrada uma após a outra, de acordo com um programa. Este programa awk específico é especificado como primeiro argumento e consiste em três instruções. Vamos analisá-los um por um:

  • /^Entry/{k=$0;next} significa: se a linha processada corresponder a /^Entry/ , armazene-a na variável k e vá para o próximo ciclo, ignorando as seguintes declarações.

  • {g[k]=g[k]"\n"$0} não tem nenhuma condição anterior, portanto é sempre executado e significa: atualiza o valor armazenado no dicionário g com a chave k : o novo valor deve ser o concatenação do valor anterior (possivelmente vazio) g[k] , um retorno de carro "\n" e a linha atual.

  • END{for(k in g)print k g[k]} tem uma condição END e, portanto, é executado quando todas as linhas de entrada tiverem sido processadas. Ele diz: para cada chave em g , ou seja, para cada título que apareceu nos arquivos de entrada, imprima o valor associado, que é a concatenação de todas as linhas encontradas nos arquivos de entrada sob esse título.

Para usar o IRL, você precisa substituir /^Entry/ pelo padrão correto (provavelmente /^\$\$\$/ ).

    
por 10.04.2018 / 11:14