Eu tenho alguns problemas em um cluster ceph. O fs_apply_latency é muito alto, o que leva a um alto carregamento e respostas lentas a VMs do qemu (que usam imagens ceph como VHD). A configuração é:
Aqui está a saída do ceph osd perf:
osd fs_commit_latency(ms) fs_apply_latency(ms)
0 17 551
1 0 18
2 44 61
3 0 915
4 0 912
5 46 646
6 0 1243
7 84 110
8 1 23
9 2 167
10 0 576
11 1 1188
12 0 105
13 0 199
14 0 536
15 0 1560
16 0 195
17 0 633
18 0 492
19 0 387
Às vezes, é de até 3 segundos por OSD! Não consigo ver nenhuma operação pesada de leitura ou gravação nesse cluster. De qualquer forma, há mensagens bloqueadas de E / S de tempos em tempos para diferentes OSDs.
Aqui está o ceph.conf momentâneo:
[global]
fsid = <removed>
mon host = mon1,mon2,mon3
mon addr = <removed>
mon initial_members = mon1,mon2,mon3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
osd pool default size = 3
public network = <private>/24
cluster network = <private>/24
rbd default format = 2
[osd]
osd journal size = 10240 # useless since we use partitions nowadays
osd recovery max active = 1
osd max backfills = 1
Tem alguma ideia do que posso fazer para reduzir a latência? Eu naveguei na Web durante semanas e não consegui encontrar nada realmente útil.