Tivemos praticamente o mesmo problema - quando estávamos atualizando, ele falhou com o tempo limite de bloqueio. Nossa estratégia atual é usar 1 servidor para os processos em segundo plano e as gravações em massa e usar os outros 2 servidores para os servidores da web ao vivo.
Isso é muito fácil se você estiver usando o HAProxy - mas tivemos que fazer algumas alterações em nosso código também.
Até agora, parece funcionar muito melhor, mas definitivamente vamos ver se está funcionando bem em algumas semanas (quando não nos deparamos com os mesmos problemas que tivemos).
Algumas notas da nossa experiência:
Algumas semanas depois, posso dizer que as mudanças realmente fizeram uma grande diferença. Acho que a mudança mais importante foi analisar os processos em segundo plano e programá-los, para que eles não se sobreponham (ou não se sobreponham).
Mudando o servidor, então apenas um servidor é usado principalmente para gravação e os outros dois servidores são usados para leitura, melhorando nossa experiência com o usuário durante os processos pesados de segundo plano.
O terceiro passo que fizemos foi melhorar nossos processos em segundo plano. Durante uma transação, o programador abandonou a tabela e a reconstruiu a partir do zero. Alteramos isso para verificar primeiro se uma alteração é necessária e, em seguida, atualizamos a linha. Isso melhorou o desempenho deste processo extremamente.
Nossa experiência é que a leitura é muito rápida em um cluster Galera, mas a escrita pode ser bem lenta, especialmente se você estiver fazendo toneladas de operações de gravação. Tivemos alguns soluços no começo e tivemos que reimportar toda a tabela - isso foi um grande assassino para o banco de dados. Outra coisa que travou nosso servidor duas vezes foi que o binlog encheu os discos do servidor, que travou o servidor. Certifique-se também de alterar todos os bancos de dados para tabelas Innodb, caso contrário, a perda de dados é possível. Um de nossos programadores definiu todas as tabelas de registro para o MyISAM - digamos que perdemos alguns de nossos logs neste processo.
Mas, afinal, posso dizer que Galera está trabalhando muito bem agora. É especialmente bom se você tiver que atualizar o servidor de banco de dados ou fazer alguma outra manutenção, já que não é um grande problema se você está desligando um nó para fazer alguma manutenção.