Acontece que havia uma tarefa do cron executando a sincronização; a cada 60 segundos. Ele estava produzindo muitos processos zumbis, que estava diminuindo a velocidade do RAID. Moral da história: verifique seus trabalhos no cron.
É muito simples: esse servidor tem um SSD para a unidade principal e uma matriz RAID (mdadm) para armazenamento.
Intermitentemente, há um problema ao gravar na matriz: as velocidades de gravação diminuem a velocidade até o ponto em que realmente não é utilizável.
Acabei de testar a velocidade e copiei um arquivo de 1G do SSD para o RAID demorou quase uma hora:
root@office:/tmp# rsync -vhr --progress test.img /mnt/raid/
sending incremental file list
test.img
1.07G 100% 301.99kB/s 0:57:52 (xfer#1, to-check=0/1)
sent 1.07G bytes received 31 bytes 309.25K bytes/sec
total size is 1.07G speedup is 1.0
O array RAID parece estar bem:
root@office:/tmp# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
5860270080 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
unused devices: <none>
e o syslog não menciona nada.
Onde mais devo procurar solucionar isso?
PS. Cerca de um mês atrás, tivemos que substituir um switch após uma tempestade. Este problema começou por volta dessa época também. Eu não posso dizer se é uma placa-mãe com defeito ou um controlador, ou outra coisa que está quebrada. Eu preferiria encontrar uma arma fumegante antes de aconselhar o cliente a começar a substituir o hardware ...