Existe uma mágica de linha de comando para salvar colunas específicas pelo nome em um arquivo CSV?

1

Suponha que eu tenha um conjunto de dados maluco no CSV:

SOS_VOTERID,COUNTY_NUMBER,COUNTY_ID,LAST_NAME,FIRST_NAME,MIDDLE_NAME,SUFFIX,DATE_OF_BIRTH,REGISTRATION_DATE,PARTY_AFFILIATION,RESIDENTIAL_ADDRESS1,RESIDENTIAL_SECONDARY_ADDR,city,RESIDENTIAL_STATE,zip,RESIDENTIAL_ZIP_PLUS4,RESIDENTIAL_COUNTRY,RESIDENTIAL_POSTALCODE,MAILING_ADDRESS1,MAILING_SECONDARY_ADDRESS,MAILING_CITY,MAILING_STATE,MAILING_ZIP,MAILING_ZIP_PLUS4,MAILING_COUNTRY,MAILING_POSTAL_CODE,CAREER_CENTER,CITY,CITY_SCHOOL_DISTRICT,COUNTY_COURT_DISTRICT,CONGRESSIONAL_DISTRICT,COURT_OF_APPEALS,EDUCATIONAL_SERVICE_CENTER_DISTRICT,EXEMPTED_VILLAGE_SCHOOL_DISTRICT,LIBRARY,LOCAL_SCHOOL_DISTRICT,MUNICIPAL_COURT_DISTRICT,PRECINCT_NAME,PRECINCT_CODE,STATE_BOARD_OF_EDUCATION,STATE_REPRESENTATIVE_DISTRICT,STATE_SENATE_DISTRICT,TOWNSHIP,VILLAGE,WARD,PRIMARY-03/07/2000,GENERAL-11/07/2000,SPECIAL-05/08/2001,GENERAL-11/06/2001,PRIMARY-05/07/2002,GENERAL-11/05/2002,SPECIAL-05/06/2003,GENERAL-11/04/2003,PRIMARY-03/02/2004,GENERAL-11/02/2004,SPECIAL-02/08/2005,PRIMARY-05/03/2005,PRIMARY-09/13/2005,GENERAL-11/08/2005,SPECIAL-02/07/2006,PRIMARY-05/02/2006,GENERAL-11/07/2006,PRIMARY-05/08/2007,PRIMARY-09/11/2007,GENERAL-11/06/2007,PRIMARY-11/06/2007,GENERAL-12/11/2007,PRIMARY-03/04/2008,PRIMARY-10/14/2008,GENERAL-11/04/2008,GENERAL-11/18/2008,PRIMARY-05/05/2009,PRIMARY-09/08/2009,PRIMARY-09/15/2009,PRIMARY-09/29/2009,GENERAL-11/03/2009,PRIMARY-05/04/2010,PRIMARY-07/13/2010,PRIMARY-09/07/2010,GENERAL-11/02/2010,PRIMARY-05/03/2011,PRIMARY-09/13/2011,GENERAL-11/08/2011,PRIMARY-03/06/2012,GENERAL-11/06/2012,PRIMARY-05/07/2013,PRIMARY-09/10/2013,PRIMARY-10/01/2013,GENERAL-11/05/2013,PRIMARY-05/06/2014,GENERAL-11/04/2014,PRIMARY-05/05/2015
OH0012781511,87,26953,HOUSEHOLDER,SHERRY,LEIGH,,11/26/1965,08/19/1988,,211 N GARFIELD ST ,   ,BLOOMDALE,OH,44817,,,,  PO BOX 222  ,   ,BLOOMDALE,OH,44817,,,,PENTA JVSD,,,,05,06,WOOD EDUC SRV CTR,,,ELMWOOD LOCAL SD,BOWLING-GREEN,BLOOM TWP BLOOMDALE,87-P-ABO,02,03,02,,BLOOMDALE VILLAGE,,D,,,X,,X,,,,X,,,,,,,,,,,,,D,,X,,,,,,X,,,,,,,,,X,,,,,,,
OH0012781528,87,31122,KEATON,JENNIFER,KAI,,11/27/1968,07/13/2015,,110 N GARFIELD ST ,   ,BLOOMDALE,OH,44817,,,,  PO BOX 16  ,   ,BLOOMDALE,OH,44817,,,,PENTA JVSD,,,,05,06,WOOD EDUC SRV CTR,,,ELMWOOD LOCAL SD,BOWLING-GREEN,BLOOM TWP BLOOMDALE,87-P-ABO,02,03,02,,BLOOMDALE VILLAGE,,,X,,,,,,,,X,,,,,,,,,,,,,,,X,,,,,,X,,,,,,,X,,X,,,,,,,

E desejo apenas salvar as colunas city e zip; Existe uma mágica de linha de comando simples, que eu posso especificar os dois nomes como argumentos e salvar apenas as duas colunas em um novo arquivo CSV?

    
por JZ. 06.09.2015 / 20:33

2 respostas

1

Se você tiver colunas simples separadas por vírgula, poderá fazê-lo com o awk. Analise a primeira linha para determinar as colunas desejadas e, em seguida, imprima essas colunas.

wanted_columns=city,zip
wanted_columns=",$wanted_columns," awk -F, '
    NR==1 {
        for (i=1; i<=NF; i++) {
            if (index(ENVIRON["wanted_columns"], ","$i",")) {last=i; columns[i]=","}
            columns[last]="\n"
        }
    }
    {
        for (i=1; i<=NF; i++) {
            if (columns[i]) printf "%s%s", $i, columns[i]
        }
    }'

Como alternativa, você pode usar cut ; isso será mais rápido se o arquivo for grande. Primeiro, analise a linha de cabeçalho com diferentes ferramentas para determinar os números das colunas.

wanted_columns=city,zip
{
  IFS= read header;
  cut_spec=$(printf %s "$header" |
             wanted_columns=",$wanted_columns," awk -v RS=, '
                 index(ENVIRON["wanted_columns"], ","$0",") {printf "%d,", NR}'
             );
  { printf %s\n "$header"; cat; } | cut -d , -f "${cut_spec%,}";
}

Se o seu arquivo CSV for um arquivo CSV real com algumas colunas citadas que podem ter colunas incorporadas ou novas linhas, use uma ferramenta CSV adequada. Por exemplo, em Python :

#!/usr/bin/env python2
import csv, sys
wanted_columns = set(sys.argv[1:])
reader = csv.reader(sys.stdin)
header = reader.next()
columns = [i for i in range(len(header)) if header[i] in wanted_columns]
writer=csv.writer(sys.stdout)
writer.writerow(sys.argv[1:])
for row in reader: writer.writerow([row[i] for i in columns])

(Passe os nomes das colunas desejadas como argumentos para o script.)

    
por 07.09.2015 / 01:45
0

Se você não tiver incorporado , (significando não ...,"foo,bar",... ), poderá usar cut :

cut -d, -f13,15

seleciona apenas as colunas 13 e 15, onde as colunas são delimitadas por , . Por que as colunas 13 e 15 são as corretas? Eu contei as vírgulas com

head -n 1 data.csv | sed 's/zip,.*/,/' | tr -dc , | wc -c

Explicação: pegue a primeira linha de entrada ( head ), encontre "zip" e substitua o restante da linha por uma vírgula ( sed ), então jogue fora tudo que não for uma vírgula ( tr ) e count ( wc ). Então "a, zip, b" é transformado em "a ," para "," em 2. "zip" é o segundo campo.

    
por 06.09.2015 / 20:42