awk paragraph não funciona

2

Eu baixei o arquivo KingBase Lite 2018 Atualização 3 de aqui . Agora quero extrair dados de um único evento, como o "FIDE Candidates 2018": eu quero obter todos os parágrafos que contêm este texto e o parágrafo abaixo dele, então eu tenho todo o pgn para cada jogo.

Para primeiro obter apenas o parágrafo que contém o texto, segui estas recomendações .

No entanto, quando tento awk -v RS='' -v ORS='\n\n' '/FIDE Candidates 2018/' KingBaseLite2018-03.pgn , ele imprime o arquivo inteiro. Quando procuro por uma palavra que não existe, ela não imprime nada. Então eu suponho que faz a busca corretamente, mas de alguma forma não corta corretamente em novas linhas. Pode haver algo estranho sobre os novos caracteres de linha nesse arquivo. Quando eu tento outras sugestões do link acima, como usar o perl, recebo o mesmo resultado.

O que posso fazer para obter o parágrafo agora? E como posso incluir um parágrafo abaixo também?

    
por maddingl 06.06.2018 / 12:07

1 resposta

3

Eu baixei e descompactei o arquivo, e os finais de linha são CRLF, então você precisa dar conta disso, seja usando uma ferramenta como fromdos , ou se você não quer modificar o arquivo, você pode dizer ao Perl que você quer que ele faça a tradução com seu :crlf PerlIO camada, que é o que eu estou fazendo abaixo com a variável de ambiente PERLIO . (Existem outras maneiras de mudar as camadas, mas esta foi a mais fácil para um one-liner).

Estou usando o operador de flip-flop ... para extrair somente o parágrafo correspondente o regex mais o seguinte que corresponde a /^1\./ (já que todos os parágrafos no arquivo começam com [ ou 1. ).

wget http://kingbase-chess.net/download/650 -O KingBaseLite2018-03.zip
unzip KingBaseLite2018-03.zip
PERLIO=:crlf perl -00ne 'print if /"FIDE Candidates 2018"/.../^1\./' KingBaseLite2018-03.pgn
    
por 06.06.2018 / 13:38

Tags