Copie recursivamente apenas certos diretórios que correspondem aos padrões listados em um arquivo

2

Eu tenho um diretório com a seguinte estrutura:

-- 201893208
   └── 8Z12
          └── ko_8Z12_Full
          └── wp_we_8Z12_FullDAT
          └── 8Z12_DATFull
   └── P011
          └── P011_Full
          └── 8Z12_FullDAT
          └── P011_DATFull
   └── 9FZA
          └── kl_wt-we-w_kl9-9FZA_Full
          └── ffd-9FZA_FullDAT
          └── 8fdZ12232_9FZA_DATFull
-- 903240920
   └── P0fsa
          └── P0fsa_Full
          └── P0fsa_FullDAT
          └── P0fsa_DATFull
   └── Paaaf
          └── we-Paaaf_ww_fl_Full
          └── Paaaf_FullDAT
          └── Paaaf_DATFull
   └── 9FZATYYY
          └── 9FZATYYY_Full
          └── 9FZATYYY_FullDAT
-- wt0340291
   └── OPF1121
          └── OPF1121_Full
          └── 8Z12_DATFull
   └── KLOFJ9
          └── lop_KLOFJ9_ffj_Full
          └── powt_KLOFJ9_DATFull
   └── LP02323
          └── wr_we_LP02323_Full
          └── wr_we_LP02323_FullDAT

Existem milhares de arquivos em cada pasta listada acima. E também há muitos subdiretórios dentro de cada um. Por exemplo, 8Z12 não contém apenas as três pastas listadas acima, mas também contém milhares de arquivos.

Eu APENAS quero copiar os diretórios que têm _Full no final do nome (os diretórios DATFull NÃO devem ser copiados ) < strong> AND também contém os padrões na lista abaixo

LP02323
KLOFJ9
Paaaf
9FZA

Em outras palavras, os diretórios que contêm uma string da lista acima AND Full em seu nome (mas NÃO DAT) devem ser copiados.

Portanto, no exemplo acima, apenas os seguintes diretórios (e todos os seus conteúdos e subdiretórios) devem ser copiados:

wr_we_LP02323_Full
lop_KLOFJ9_ffj_Full
we-Paaaf_ww_fl_Full
kl_wt-we-w_kl9-9FZA_Full

No meu entendimento, rsync não suporta regex, portanto, isso deve ser feito com find antes de tudo (corrija-me se estiver errado). Mas como posso fazer isso de forma a garantir que todos os diretórios e subdiretórios sejam verificados e todas as pastas relevantes sejam copiadas, mesmo que sejam enterradas em vários subdiretórios (observe que o exemplo acima foi simplificado estrutura da minha pasta original).

Então, há duas perguntas:

  • Como posso fornecer a lista de padrões para find ?
  • Como posso canalizar o resultado de find para rsync ?

Até agora, isso só vem à minha mente para combinar Full :

find . -regextype sed -regex ".*/.*[^DAT]Full$"

Mas como posso adicionar a lista de IDs a este comando find ?

    
por benett 11.07.2018 / 10:43

1 resposta

0

Usando um arquivo de strings que precisam estar presentes nos nomes de diretório, um loop de shell sobre eles e rsync (assumindo que queremos copiar do diretório na variável $source e para o diretório na variável $target ):

while IFS= read -r string; do
    rsync --archive --exclude='*DAT*/' --include='*/' --include="*$string*_Full/***" --exclude='*' \
        --prune-empty-dirs "$source"/ "$target"
done <strings.txt

Quais são as opções para rsync (o primeiro hit em qualquer um dos padrões de exclusão / inclusão é importante):

  • --archive : copia propriedade, permissões, data e hora, etc.
  • --exclude='*DAT*/' : exclui qualquer diretório com DAT em seu nome.
  • --include='*/' : considere todos os diretórios (exceto os excluídos pelo padrão anterior). Isso é necessário para que rsync atinja os diretórios reais nos quais você está interessado.
  • --include="*$string*_Full/***" : considere todos os diretórios que correspondem ao padrão fornecido e tudo abaixo desse diretório. Se $string for parrot , isso seria --include="*parrot*_Full/***" .
  • --exclude='*' : não considere nada que ainda não esteja explicitamente incluído.
  • --prune-empty-dirs : não transfira diretórios que não tenham nada explicitamente incluído neles.

Se você quiser ver como rsync avalia os padrões ao executá-lo, adicione -vv à linha de comando rsync .

Teste:

$ tree
.
|-- from
|   '-- a
|       '-- b
|           |-- c_A_DATFull
|           |   '-- file
|           |-- c_A_DAT_Full
|           |   '-- file
|           |-- c_A_Full
|           |   '-- file
|           |-- c_B_DATFull
|           |   '-- file
|           |-- c_B_DAT_Full
|           |   '-- file
|           |-- c_B_Full
|           |   '-- file
|           |-- c_C_DATFull
|           |   '-- file
|           |-- c_C_DAT_Full
|           |   '-- file
|           '-- c_C_Full
|               '-- file
'-- strings.txt

12 directories, 10 files

$ cat strings.txt
A
B

$ source=from
$ target=to

(executando o loop aqui)

$ tree
.
|-- from
[...]
'-- to
    '-- a
        '-- b
            |-- c_A_Full
            |   '-- file
            '-- c_B_Full
                '-- file

17 directories, 12 files

Com uma única invocação de rsync :

set -- --exclude='*DAT*/' --include='*/'
while IFS= read -r string; do
    set -- "$@" --include="*$string*_Full/***"
done <strings.txt
set -- "$@" --exclude='*'

rsync --archive "$@" --prune-empty-dirs "$source"/ "$target"

Uma solução find :

set --
while IFS= read -r string; do
    set -- "$@" -o -name "*$string*_Full"
done <strings.txt
shift

# "$@" would now be something like
#    -name *LP02323*_Full -o -name *Paaaf*_Full -o -name ...etc

find "$source" -type d '(' "$@" ')' ! -name '*DAT*' -exec sh -c '
    source=$1; target=$2; shift 2
    for pathname do
        mkdir -p "$target/${pathname#$source}"
        rsync --archive "$pathname"/ "$target/${pathname#$source}"
    done' sh "$source" "$target" {} +

Isso usaria find para gerar uma lista dos subdiretórios que você gostaria de copiar. Estes são dados para um pequeno script em linha que faz um loop sobre eles.

Em cada iteração do loop, o diretório correspondente no destino é criado (isso pressupõe cópia local) e o diretório é copiado usando rsync .

Nunca use os nomes de caminho find para canalizar para outro comando, a menos que você possa providenciar que os nomes dos caminhos sejam delimitados com segurança.

Relacionados:

por 11.07.2018 / 11:24