divide um arquivo de texto depois de cada n corresponder a um novo arquivo usando sed ou awk

0

Eu tentei dividir um arquivo em partes de n correspondências cada. O arquivo é apenas uma linha e o separador é '<br>'

foo<br>bar<br>.....<br>

Eu só quero dividir o arquivo em partes, onde cada arquivo tem 100 conjuntos de dados ( text plus <br> ) (normalmente 100 conjuntos de dados, mas no final talvez menos)

Eu já brinquei com isso ... arquivo-split- in-2-com-sed e este divisão -um-arquivo-em-vários-arquivos-baseado-em-padrão

sed.exe -e "^.*.<br>{0,100}/g" < original.txt > first_half.txt

A divisão não funciona e o resultado é apenas um arquivo, em vez de muitos.

    
por ozz 09.11.2013 / 16:08

2 respostas

0

awk -v n=100 -v RS="<br>" -v ORS="<br>" '++i % n == 0 {printf "\n"} 1' file

Teste

$ printf "%d<br>" $(seq 100)
1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br>10<br>11<br>12<br>13<br>14<br>15<br>16<br>17<br>18<br>19<br>20<br>21<br>22<br>23<br>24<br>25<br>26<br>27<br>28<br>29<br>30<br>31<br>32<br>33<br>34<br>35<br>36<br>37<br>38<br>39<br>40<br>41<br>42<br>43<br>44<br>45<br>46<br>47<br>48<br>49<br>50<br>51<br>52<br>53<br>54<br>55<br>56<br>57<br>58<br>59<br>60<br>61<br>62<br>63<br>64<br>65<br>66<br>67<br>68<br>69<br>70<br>71<br>72<br>73<br>74<br>75<br>76<br>77<br>78<br>79<br>80<br>81<br>82<br>83<br>84<br>85<br>86<br>87<br>88<br>89<br>90<br>91<br>92<br>93<br>94<br>95<br>96<br>97<br>98<br>99<br>100<br>

$ printf "%d<br>" $(seq 100) |
  awk -v n=10 -v RS="<br>" -v ORS="<br>" '++i % n == 0 {printf "\n"} 1'
1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br>
10<br>11<br>12<br>13<br>14<br>15<br>16<br>17<br>18<br>19<br>
20<br>21<br>22<br>23<br>24<br>25<br>26<br>27<br>28<br>29<br>
30<br>31<br>32<br>33<br>34<br>35<br>36<br>37<br>38<br>39<br>
40<br>41<br>42<br>43<br>44<br>45<br>46<br>47<br>48<br>49<br>
50<br>51<br>52<br>53<br>54<br>55<br>56<br>57<br>58<br>59<br>
60<br>61<br>62<br>63<br>64<br>65<br>66<br>67<br>68<br>69<br>
70<br>71<br>72<br>73<br>74<br>75<br>76<br>77<br>78<br>79<br>
80<br>81<br>82<br>83<br>84<br>85<br>86<br>87<br>88<br>89<br>
90<br>91<br>92<br>93<br>94<br>95<br>96<br>97<br>98<br>99<br>
100<br>
    
por 09.11.2013 / 16:34
0

Eu recebo um comando desconhecido com sed na minha máquina RHEL. Provavelmente porque você está usando o Windows e o sed.exe usa ^.*.<br>{0,100} como padrão para o comando g.

echo "foo<br>bar<br>...baz<br>" |  sed -e "^.*.<br>{0,100}/g"
sed: -e expression #1, char 1: unknown command: '^'

Você está tentando colocar cada uma das correspondências no espaço padrão. Eu acho que essa abordagem não funcionará porque uma correspondência como sed "/ pattern / command" será executada apenas uma vez por linha, portanto, no total, uma vez no seu caso. E mesmo se separar o texto de maneira diferente, você está redirecionando a saída para um único arquivo.

Aqui está uma abordagem mais simples para substituir todas as ocorrências do Google:

echo "foo<br>bar<br>...baz<br>" |  sed -e "s/<br>\{1,100\}/\n/g"
foo
bar
...baz

Você pode usar o dividir para ter cada linha em um arquivo diferente

    
por 13.11.2013 / 05:40

Tags