Bom tamanho de bloco para clonagem de disco com diskdump (dd)

46

Eu uso dd em sua forma mais simples para clonar um disco rígido:

dd if=INPUT of=OUTPUT

No entanto, eu li na manpage que dd conhece um parâmetro de tamanho de bloco. Existe um valor ótimo para o parâmetro blocksize que acelerará o procedimento de clonagem?

    
por Phi 17.01.2011 / 10:44

5 respostas

32

64k parece ser uma boa escolha:

Results:

  no bs=        78s     144584+0 records
  bs=512        78s     144584+0 records
  bs=1k         38s     72292+0 records
  bs=2k         38s     36146+0 records
  bs=4k         38s     18073+0 records
  bs=5k         39s     14458+1 records
  bs=50k        38s     1445+1 records
  bs=500k       39s     144+1 records
  bs=512k       39s     144+1 records
  bs=1M         39s     72+1 records
  bs=5M         39s     14+1 records
  bs=10M        39s     7+1 records

(tirada de aqui ).

isto coincide com as minhas próprias descobertas a respeito do buffer de leitura / gravação para acelerar um programa conversor io-pesado que eu já usei pimping @work.

    
por 17.01.2011 / 10:55
21

dd terá todo o prazer em copiar usando o BS do que você quiser, e copiará um bloco parcial (no final).

Basicamente, o parâmetro tamanho do bloco (bs) parece definir a quantidade de memória usada para ler em um bloco de um disco antes de tentar gravar esse pedaço no outro.

Se você tiver muita RAM, tornar o BS grande (mas inteiramente contido na RAM) significa que o subsistema de E / S é utilizado o máximo possível fazendo grandes leituras e gravações - explorando a RAM. Tornar a BS pequena significa que a sobrecarga de I / O como proporção da atividade total aumenta.

Claro que nisto há uma lei de retornos decrescentes. Minha aproximação aproximada é que um tamanho de bloco no intervalo de 128K a 32M provavelmente dará um desempenho tal que os overheads são pequenos comparados com o I / O comum, e aumentar muito não fará muita diferença. A razão para o limite inferior ser 128K para 32M é - isso depende do seu sistema operacional, hardware e assim por diante.

Se fosse eu, faria alguns experimentos sincronizando uma cópia / clone usando um BS de 128K e novamente usando (digamos) 16M. Se um é consideravelmente mais rápido, use-o. Se não, então use o menor BS dos dois.

    
por 17.01.2011 / 13:15
10

Para aqueles que acabam aqui pelo Google, mesmo que essa discussão seja um pouco antiga ...

Tenha em mente que o dd é burro por um motivo: quanto mais simples, menos formas de estragar.

Esquemas complexos de particionamento (considere um disco rígido dual-boot que adicionalmente usa o LVM em seu sistema Linux) começarão a remover bugs do ambiente em programas como o Clonezilla. Sistemas de arquivos mal desmontados podem explodir o ntfsclone muito alto.

Um sistema de arquivos corrompido, clonado setor por setor, não é pior que o original. Um sistema de arquivos corrompido depois de uma "cópia inteligente" com falha pode estar na forma REALMENTE desculpe.

Em caso de dúvida, use dd e vá forense. Imagens forenses exigem cópias setor a setor (na verdade, podem exigir mais setores do que você conseguirá com o dd, mas essa é uma longa história). É lento e tedioso, mas fará o trabalho corretamente.

Além disso, conheça as opções "conv = noerror, sync", para que você possa clonar unidades que estão começando a falhar-- ou fazer ISOs a partir de CDs riscados ( cough )-- sem demorou meses.

    
por 01.11.2012 / 12:45
8

Como outros já disseram, não há tamanho de bloco universalmente correto; o que é ideal para uma situação ou uma peça de hardware pode ser terrivelmente ineficiente para outra. Além disso, dependendo da saúde dos discos, pode ser preferível usar um tamanho de bloco diferente do que é "ideal".

Uma coisa que é bastante confiável no hardware moderno é que o tamanho de bloco padrão de 512 bytes tende a ser quase uma ordem de magnitude mais lenta do que uma alternativa mais ideal. Quando em dúvida, descobri que o 64K é um padrão moderno bastante sólido. Embora 64K geralmente não seja o tamanho ideal de bloco, na minha experiência ele tende a ser muito mais eficiente do que o padrão. O 64K também tem um histórico bastante sólido de desempenho confiável: você pode encontrar uma mensagem da lista de distribuição do Eug-Lug, por volta de 2002, recomendando um tamanho de bloco de 64K aqui: link

Para determinar o tamanho ideal do bloco de saída, escrevi o seguinte script que testa a gravação de um arquivo de teste de 128M com dd em um intervalo de tamanhos de bloco diferentes, do padrão de 512 bytes a um máximo de 64M. Esteja avisado, este script usa o dd internamente, então use com cuidado.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Exibir no GitHub

Eu só testei esse script em um sistema Debian (Ubuntu) e no OSX Yosemite, então provavelmente será necessário fazer alguns ajustes em outros tipos de Unix.

Por padrão, o comando criará um arquivo de teste chamado dd_obs_testfile no diretório atual. Como alternativa, você pode fornecer um caminho para um arquivo de teste personalizado fornecendo um caminho após o nome do script:

$ ./dd_obs_test.sh /path/to/disk/test_file

A saída do script é uma lista dos tamanhos de bloco testados e suas respectivas transferências taxas assim:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Nota: A unidade das taxas de transferência varia de acordo com o SO)

Para testar o tamanho ideal do bloco de leitura, você pode usar mais ou menos o mesmo processo, mas ao invés de ler / dev / zero e escrever no disco, você leu o disco e escreva para / dev / null. Um script para fazer isso pode parecer assim:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Exibir no GitHub

Uma diferença importante neste caso é que o arquivo de teste é um arquivo que é escrito pelo script. Não aponte este comando para um arquivo existente ou o arquivo existente será sobrescrito com dados aleatórios!

Para meu hardware em particular, descobri que 128K era o tamanho de bloco de entrada mais ideal em um HDD e 32K era o mais ideal em um SSD.

Embora essa resposta cubra a maioria das minhas descobertas, já me deparei com essa situação várias vezes que escrevi um post sobre isso: link Você pode encontrar mais detalhes sobre os testes que eu fiz lá.

Esta postagem do StackOverflow também pode ser útil: dd: Como calcular o tamanho ideal de blocos

    
por 05.01.2015 / 03:08
3

Sim, mas você não o encontrará sem muitos testes. Eu descobri que 32M é um bom valor para usar embora.

    
por 17.01.2011 / 10:48