Manual runs of ping (or its own check_ping binary) finds no fault with any of the affected hosts
Essa é uma maneira muito idiota de verificar a perda de pacotes. Você deve comparar as retransmissões registradas para a NIC em intervalos (netstat -r) ou capturar o tráfego usando uma ferramenta como pastmon ou wireshark. Desde:
1) você já disse que a perda de pacotes ocorre em rajadas - como você sabe que estava executando um ping em um caminho durante o tempo em que a perda de pacotes estava ocorrendo?
2) pequenas quantidades de perda de pacotes podem ter um grande impacto na taxa de transferência - é por isso que as monitoramos - se você quiser confirmar a perda de pacotes de 1%, será necessário enviar pelo menos 200 pacotes pelo caminho - quantos você enviou?
3) No entanto, a substituição do WTF aqui é que o TCP, e em menor medida o UDP, se comporta de maneira muito diferente do ICMP - este último é muito menos afetado por problemas de congestionamento (mesmo assumindo uma consistência de 1500 MTU)
i.e. você não forneceu nenhuma evidência válida de que a perda de pacotes é falsa. No entanto, você forneceu evidências de que não entende realmente o que estava tentando medir.
yet other hosts on the same networks do not have the same loss
Você acha que a perda de pacotes ocorre apenas entre hosts? Isso está errado.