extrai texto para o arquivo csv da saída da leitura de vários arquivos em linhas específicas

1

Estou tentando escrever um script bash para gerar um arquivo csv a partir de texto em vários documentos PDF. Eu tenho um script para converter pdf em texto, mas não para gerar o arquivo csv. Cada documento de texto obtém sua própria linha, com certos dados extraídos de cada documento de texto. A primeira linha do arquivo csv contém o nome da coluna, enquanto todo o restante é extraído do arquivo de texto. Então você teria o arquivo csv parecido com isto:

Data1,Data2,Data3,Data4 Data1_FromFile1,Data2_FromFile1,Data3_FromFile1,Data4_FromFile1 Data1_FromFile2,Data2_FromFile2,Data3_FromFile2,Data4_FromFile2 Data1_FromFile3,Data2_FromFIle3,Data3_FromFile3,Data4_FromFile3

Nem todo o texto dentro dos arquivos de texto será usado, apenas linhas que se ajustam a certos padrões (datas, códigos, conteúdos de certas seções). Haverá mais de 3 linhas também. Como eu iria criar o arquivo csv assim? Eu redirecionaria a saída padrão para um arquivo, sendo o arquivo csv e, em seguida, como formatá-lo como um arquivo csv dessa maneira?

    
por cluemein 13.07.2015 / 20:36

0 respostas