AWK Procura arquivo massivo e escreve no nome da variável

2

Eu quero extrair dados que precisarei reformatar de um arquivo de simulação com o qual estou trabalhando para prepará-lo como entrada para executar outras simulações. Os dados de destino são uma matriz z química otimizada. A única diferença do exemplo no link é que os dígitos são armazenados como variáveis sob a matriz z.

Estou trabalhando com arquivos que podem abranger milhares a centenas de milhares de linhas, e ter em toda parte outras matrizes z intermediárias que são extremamente semelhantes aos meus dados de destino. No entanto, existe uma linha líder única e uma linha após os dados que eu preciso, portanto os dados entre essas duas linhas devem ser relativamente simples de extrair. Aqui está um exemplo:

 Final structure in terms of initial Z-matrix:
 Cl
 C,1,B1
 C,2,B2,1,A2
 H,2,B3,1,A3,3,D3,0
 H,2,B4,1,A4,3,D4,0
 C,3,B5,2,A5,1,D5,0
 C,6,B6,3,A6,2,D6,0
 C,7,B7,6,A7,3,D7,0
 H,3,B8,2,A8,1,D8,0
 H,3,B9,2,A9,1,D9,0
 H,7,B10,6,A10,3,D10,0
 H,7,B11,6,A11,3,D11,0
 H,8,B12,7,A12,6,D12,0
 H,8,B13,7,A13,6,D13,0
 H,8,B14,7,A14,6,D14,0
 O,6,B15,3,A15,2,D15,0
      Variables:
 B1=1.81746475
 B2=1.52136867
 A2=110.80057513
 B3=1.0898967
 A3=106.92512231
 D3=-121.94499481
 B4=1.08989406
 A4=106.92581701
 D4=121.94497834
 B5=1.52808963
 A5=111.92359259
 D5=179.99770382
 B6=1.523193
 A6=116.49970868
 D6=179.97424974
 B7=1.52739317
 A7=113.56269053
 D7=179.98802896
 B8=1.09816794
 A8=110.50682514
 D8=58.2854688
 B9=1.09816384
 A9=110.50888758
 D9=-58.28349045
 B10=1.10022643
 A10=107.84652382
 D10=56.40290615
 B11=1.10022793
 A11=107.84460667
 D11=-56.42958848
 B12=1.09398015
 A12=110.97242167
 D12=-59.62466169
 B13=1.09473047
 A13=110.53459142
 D13=179.99742235
 B14=1.09397826
 A14=110.9720435
 D14=59.61905862
 B15=1.21736254
 A15=121.22780588
 D15=-0.02140167
 1\GINC-C0959\FOpt\RB3LYP-31G(d)\C5H9Cl1O1\SKYLERS-Sep-2013
  {FS=","};{OFS=" "};{print $0}
  {FS="="};{printf "%-4s%13.8f", $1, $2}
\#

Eu também preciso reformatar esses dados, substituindo as vírgulas na primeira parte por espaços e as variáveis precisam ser deixadas por letras recuadas seguidas por números recuados à direita. Eu também quero configurar esse script para gravar esses dados em um novo arquivo baseado no nome do arquivo de entrada.

Meus objetivos em resumo:

  1. abrir o arquivo abc.out
  2. começa a ler depois de "estrutura final em termos da matriz Z inicial:"
  3. reformatar matriz Z
  4. reformatar variáveis
  5. escreva para o arquivo abc.cm

Até agora, estas são algumas das porções awk que eu estava pensando em usar:

 Final structure in terms of initial Z-matrix:
 Cl
 C,1,B1
 C,2,B2,1,A2
 H,2,B3,1,A3,3,D3,0
 H,2,B4,1,A4,3,D4,0
 C,3,B5,2,A5,1,D5,0
 C,6,B6,3,A6,2,D6,0
 C,7,B7,6,A7,3,D7,0
 H,3,B8,2,A8,1,D8,0
 H,3,B9,2,A9,1,D9,0
 H,7,B10,6,A10,3,D10,0
 H,7,B11,6,A11,3,D11,0
 H,8,B12,7,A12,6,D12,0
 H,8,B13,7,A13,6,D13,0
 H,8,B14,7,A14,6,D14,0
 O,6,B15,3,A15,2,D15,0
      Variables:
 B1=1.81746475
 B2=1.52136867
 A2=110.80057513
 B3=1.0898967
 A3=106.92512231
 D3=-121.94499481
 B4=1.08989406
 A4=106.92581701
 D4=121.94497834
 B5=1.52808963
 A5=111.92359259
 D5=179.99770382
 B6=1.523193
 A6=116.49970868
 D6=179.97424974
 B7=1.52739317
 A7=113.56269053
 D7=179.98802896
 B8=1.09816794
 A8=110.50682514
 D8=58.2854688
 B9=1.09816384
 A9=110.50888758
 D9=-58.28349045
 B10=1.10022643
 A10=107.84652382
 D10=56.40290615
 B11=1.10022793
 A11=107.84460667
 D11=-56.42958848
 B12=1.09398015
 A12=110.97242167
 D12=-59.62466169
 B13=1.09473047
 A13=110.53459142
 D13=179.99742235
 B14=1.09397826
 A14=110.9720435
 D14=59.61905862
 B15=1.21736254
 A15=121.22780588
 D15=-0.02140167
 1\GINC-C0959\FOpt\RB3LYP-31G(d)\C5H9Cl1O1\SKYLERS-Sep-2013
  {FS=","};{OFS=" "};{print $0}
  {FS="="};{printf "%-4s%13.8f", $1, $2}
\#

O que eu ainda não descobri:

  • Como faço para gravar em um arquivo com base no nome do arquivo de entrada?
  • Como leio apenas entre a primeira e a última linha?
  • Como devo dividir isso em "Variáveis:"?
por user507974 21.09.2013 / 23:29

5 respostas

4

Basicamente, você codificará uma pequena máquina de estado:

awk '
    BEGIN { 
        FS = ","
        OFS = " "    # this is the default
    }

    # create the output file name
    # on the first line of the input, the FILENAME variable will be populated
    FNR == 1 {
        f = FILENAME
        sub(/\.out/,".cm",f)
    }

    # I assume this is the magic closing line.
    # All the backslashes and regular-expression metacharacters 
    # have to be backslash-escaped
    /1\1\GINC-C0959\FOpt\RB3LYP\6-31G\(d\)\C5H9Cl1O1\SKYLERS\10-Sep-2013\0\\#/ {
        print "got end"
        exit
    }

    started && /Variables:/ {
        variables = 1
        FS = "="
        next
    }

    started && !variables {
        # do stuff with comma-separated lines
        # rewrite the file using space as separator
        # this looks weird, but it forces awk to re-write the line using OFS
        $1 = $1
        print > f
    }
    started && variables {
        # do stuff with "="-separated lines
        # the FS here is "=", so there should be 2 fields.
        printf "%-5s %15.8f\n", $1, $2 > f
    }

    !started && /Final structure in terms of initial Z-matrix/ {
        started = 1
    }
' abc.out

Dada sua entrada, isso produz o arquivo "abc.cm"

Cl
C 1 B1
C 2 B2 1 A2
H 2 B3 1 A3 3 D3 0
H 2 B4 1 A4 3 D4 0
C 3 B5 2 A5 1 D5 0
C 6 B6 3 A6 2 D6 0
C 7 B7 6 A7 3 D7 0
H 3 B8 2 A8 1 D8 0
H 3 B9 2 A9 1 D9 0
H 7 B10 6 A10 3 D10 0
H 7 B11 6 A11 3 D11 0
H 8 B12 7 A12 6 D12 0
H 8 B13 7 A13 6 D13 0
H 8 B14 7 A14 6 D14 0
O 6 B15 3 A15 2 D15 0
B1         1.81746475
B2         1.52136867
A2       110.80057513
B3         1.08989670
A3       106.92512231
D3      -121.94499481
B4         1.08989406
A4       106.92581701
D4       121.94497834
B5         1.52808963
A5       111.92359259
D5       179.99770382
B6         1.52319300
A6       116.49970868
D6       179.97424974
B7         1.52739317
A7       113.56269053
D7       179.98802896
B8         1.09816794
A8       110.50682514
D8        58.28546880
B9         1.09816384
A9       110.50888758
D9       -58.28349045
B10        1.10022643
A10      107.84652382
D10       56.40290615
B11        1.10022793
A11      107.84460667
D11      -56.42958848
B12        1.09398015
A12      110.97242167
D12      -59.62466169
B13        1.09473047
A13      110.53459142
D13      179.99742235
B14        1.09397826
A14      110.97204350
D14       59.61905862
B15        1.21736254
A15      121.22780588
D15       -0.02140167
    
por 22.09.2013 / 01:45
0

Aqui está o script do Python:

#!/usr/bin/env python
from __future__ import print_function
import sys

StartStr = 'Final structure in terms of initial Z-matrix'
StopStr = '1\1\GINC-C0959\FOpt\RB3LYP\6-31G(d)\C5H9Cl1O1\SKYLERS\10-Sep-2013\0\\#'

def main():
        v,start = 0,0
        for line in InputFile:
                line = line.strip()
                if StartStr in line: start = 1; continue
                if StopStr in line: break
                if start:
                    if v:  print('\t'.join(line.split('=')))
                    else:
                        if "Variables" in line: v = 1; print(); continue
                        print(' '.join(line.split(',')))

if __name__ == '__main__':
    if len(sys.argv) != 2:
        print( "\nUsage:\t",sys.argv[0],'<InputFile>\n',file=sys.stderr )
    else:
        try:
                ## create the output file name
                outputFile=sys.argv[1].split('.')[0],".cm"
                o = ''.join(outputFile)
                print("Your Final Output Saved in:- ",o)
                with open(sys.argv[1],'r') as InputFile:
                         sys.stdout = open(o,'w')
                         main()
        except:
                print("Problem with Opening file",sys.argv[1],file=sys.stderr)
    
por 22.09.2013 / 21:11
0

Isso também pode ser feito usando o operador flip-flop do Perl. . Digite o seguinte em um shell:

INFILE="abc.out"           #Quotes only necessary ...
OUTFILE="${INFILE%.*}".cm  # ... if you have spaces in the file names
perl -nle '
    if(m{\QFinal structure in terms of initial Z-matrix:\E} ..
       m{\Q1\GINC-C0959\FOpt\RB3LYP-31G(d)\C5H9Cl1O1\SKYLERS-Sep-2013
INFILE="abc.out"           #Quotes only necessary ...
OUTFILE="${INFILE%.*}".cm  # ... if you have spaces in the file names
perl -nle '
    if(m{\QFinal structure in terms of initial Z-matrix:\E} ..
       m{\Q1\GINC-C0959\FOpt\RB3LYP-31G(d)\C5H9Cl1O1\SKYLERS-Sep-2013%pre%\#\E}){
        (s/,/ /g or !/=|:/) and print;
        /([^=]+)=([^=]+)/ and printf "%-4s %13.8f\n", $1,$2
     }
     ' "$INFILE" > "$OUTFILE"
\#\E}){ (s/,/ /g or !/=|:/) and print; /([^=]+)=([^=]+)/ and printf "%-4s %13.8f\n", $1,$2 } ' "$INFILE" > "$OUTFILE"
    
por 22.09.2013 / 21:36
0

Dado:

  • "Final", "Variáveis" e "#" (no final da linha) dividem o seções
  • As variáveis
  • têm até 5 caracteres, os valores são até 15 charactes long

Coloque seu exemplo em in1.txt, inclua algumas linhas fictícias ao redor (in2.txt)

[root@me]$ ls -l
-rw------- 1 root root 1133 Sep 24 04:10 in1.txt
-rw------- 1 root root 4522 Sep 24 04:12 in2.txt
[root@me]$ find . -name "in*.txt" -type f|xargs -n1 -I{} sed -n '/^ *Final/,/#$/{/Final\|Variables\|#$/d;
s/^ *//;s/,/ /g;s/=/====================/;s/^\(.\{5\}\)=*\(.\{15\}\)//;s/=/ /g;w{}.out
}' {}
[root@me]$ ls -l
-rw------- 1 root root 1133 Sep 24 04:10 in1.txt
-rw------- 1 root root 1169 Sep 24 04:20 in1.txt.out
-rw------- 1 root root 4522 Sep 24 04:12 in2.txt
-rw------- 1 root root 1169 Sep 24 04:20 in2.txt.out
    
por 24.09.2013 / 06:19
0

Esta é outra versão do awk.

awk -f- <<\EOF data
    FNR==1 { f = FILENAME".new" }
    /Final structure in terms of initial Z-matrix:/ {
        FS=","
        while ( getline > 0 ) {
            if ( $0 ~ /Variables:/ ) break
            $1=$1
            print $0 > f
        }
        FS="="
        while ( getline > 0 ) {
            if( NF == 2 ) {
                printf "%-5s%15.8f\n", $1, $2 > f
            } else {
                break
            }
        }
    }
EOF
    
por 26.01.2017 / 22:29