ceph fs aplica latência muito alta, resultando em alta carga em VMs

1

Eu tenho alguns problemas em um cluster ceph. O fs_apply_latency é muito alto, o que leva a um alto carregamento e respostas lentas a VMs do qemu (que usam imagens ceph como VHD). A configuração é:

  • 5 hosts com 4 HDDs e 1 SSD como dispositivo de diário
  • interconectado pela interface de ligação 3x 1 GBit
  • rede privada separada para todo o tráfego do ceph

Aqui está a saída do ceph osd perf:

osd fs_commit_latency(ms) fs_apply_latency(ms) 
  0                    17                  551 
  1                     0                   18 
  2                    44                   61 
  3                     0                  915 
  4                     0                  912 
  5                    46                  646 
  6                     0                 1243 
  7                    84                  110 
  8                     1                   23 
  9                     2                  167 
 10                     0                  576 
 11                     1                 1188 
 12                     0                  105 
 13                     0                  199 
 14                     0                  536 
 15                     0                 1560 
 16                     0                  195 
 17                     0                  633 
 18                     0                  492 
 19                     0                  387

Às vezes, é de até 3 segundos por OSD! Não consigo ver nenhuma operação pesada de leitura ou gravação nesse cluster. De qualquer forma, há mensagens bloqueadas de E / S de tempos em tempos para diferentes OSDs.

Aqui está o ceph.conf momentâneo:

[global]
fsid = <removed>
mon host = mon1,mon2,mon3
mon addr = <removed>
mon initial_members = mon1,mon2,mon3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
osd pool default size = 3
public network = <private>/24
cluster network = <private>/24
rbd default format = 2

[osd]
osd journal size = 10240 # useless since we use partitions nowadays
osd recovery max active = 1
osd max backfills = 1

Tem alguma ideia do que posso fazer para reduzir a latência? Eu naveguei na Web durante semanas e não consegui encontrar nada realmente útil.

    
por devnull 08.01.2016 / 09:27

0 respostas

Tags