arquivo de formato para remover "caracteres

1

Eu tenho um arquivo com os seguintes dados

"MG1507XXXXXX|" "|020000XXXXXX" "20261031|"     "|3,827.92"     "|3,581.41"     "|542,729.62"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20261130|"     "|3,680.15"     "|3,729.18"     "|539,000.44"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20261231|"     "|3,776.70"     "|3,632.63"     "|535,367.81"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270131|"     "|3,751.24"     "|3,658.09"     "|531,709.72"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270228|"     "|3,365.07"     "|4,044.26"     "|527,665.46"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270331|"     "|3,697.28"     "|3,712.05"     "|523,953.41"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270430|"     "|3,552.84"     "|3,856.49"     "|520,096.92"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270531|"     "|3,644.24"     "|3,765.09"     "|516,331.83"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270630|"     "|3,501.16"     "|3,908.17"     "|512,423.66"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270731|"     "|3,590.47"     "|3,818.86"     "|508,604.80"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270831|"     "|3,563.72"     "|3,845.61"     "|504,759.19"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20270930|"     "|3,422.68"     "|3,986.65"     "|500,772.54"   "MBA"
"MG1507XXXXXX|" "|020000XXXXXX" "20271031|"     "|3,508.84"     "|3,900.49"     "|496,872.05"   "MBA"

Como eu quero mudar isso, vai parecer

MG1507XXXXXX|020000XXXXXX|20261031|3,827.92|3,581.41|542,729.62|MBA|
MG1507XXXXXX|020000XXXXXX|20261130|3,680.15|3,729.18|539,000.44|MBA|
MG1507XXXXXX|020000XXXXXX|20261231|3,776.70|3,632.63|535,367.81|MBA|
MG1507XXXXXX|020000XXXXXX|20270131|3,751.24|3,658.09|531,709.72|MBA|
MG1507XXXXXX|020000XXXXXX|20270228|3,365.07|4,044.26|527,665.46|MBA|
MG1507XXXXXX|020000XXXXXX|20270331|3,697.28|3,712.05|523,953.41|MBA|
MG1507XXXXXX|020000XXXXXX|20270430|3,552.84|3,856.49|520,096.92|MBA|
MG1507XXXXXX|020000XXXXXX|20270531|3,644.24|3,765.09|516,331.83|MBA|
MG1507XXXXXX|020000XXXXXX|20270630|3,501.16|3,908.17|512,423.66|MBA|
MG1507XXXXXX|020000XXXXXX|20270731|3,590.47|3,818.86|508,604.80|MBA|
MG1507XXXXXX|020000XXXXXX|20270831|3,563.72|3,845.61|504,759.19|MBA|
MG1507XXXXXX|020000XXXXXX|20270930|3,422.68|3,986.65|500,772.54|MBA|
MG1507XXXXXX|020000XXXXXX|20271031|3,508.84|3,900.49|496,872.05|MBA|

Não sei ao certo o que usar para conseguir isso. Alguma idéia?

    
por Nicholas Namacha 25.08.2015 / 15:44

5 respostas

1

Supondo que seus dados estão em um arquivo chamado 'dados':

sed -e s'/^"//' -e 's/|" "|/|/g' -e 's/" "|/|/g' -e 's/" "/|/g' -e s'/"$/|/' data
    
por 25.08.2015 / 15:52
3

Você poderia tr anslate todos os espaços e aspas duplas para | (e s queeze) e então cut do segundo caractere para o final da linha:

tr -s '[[:blank:]"]' \| <infile | cut -c2-
    
por 25.08.2015 / 18:27
1
sed -i 's/\"//g' filename

Você pode escapar do caractere " colocando um \ . Caso você queira remover todos os espaços, faça o seguinte:

sed -i 's/[" ]//g' filename
    
por 25.08.2015 / 15:47
1

Tente isto:

sed -e 's/["| ]\+/|/g' -e 's/^|//' < file

A primeira expressão substituirá cada bloco contendo um ou mais |, "ou espaços com um único |. O segundo removerá o | no início de cada linha.

    
por 25.08.2015 / 16:13
1

usando awk

awk ' BEGIN { FS="[|\" ]+" ; OFS="|" } { print $2,$3,$4,$5,$6,$7,$8"|" } ' file

Explicação:

BEGIN { FS="[|\" ]+" ; OFS="|" } primeiro defina o seguinte:

FS="[|\" ]+" : os campos são separados por qualquer combinação ( + ) (zero ou mais de qualquer) do canal definido ( [] ), aspas duplas (precisam ser escapadas) e espaço |\" . / p>

OFS="|" separa os campos de saída com tubos.

print $2,$3,$4,$5,$6,$7,$8"|" imprime as colunas de 1 a 8 e um tubo no final (note que ele é deslocado em um à medida que as linhas começam com aspas duplas, transformando o primeiro campo em uma string vazia e mudando a posição de todas as outras). / p>     

por 25.08.2015 / 16:16