GFS dividido, incapaz de iniciar lock_gulmd, diz state = Expirado

1

Alguma coisa quebrou e perdi uma conexão com o armazenamento no primeiro servidor. O segundo servidor tinha acesso a esse FS. Tentei reiniciar o GFS pelo serviço lock_gulmd, gfs, pool, csd stop / start (em várias ordens) mas sem sorte. No servidor master (o terceiro) " gulm_tool nodelist localhost "

"diz

Name: srv1
  state = Expired
  mode = Slave
  missed beats = 0
  last beat = 0
  delay avg = 0
  max delay = 0

Eu descobri que ele precisa ser cercado? Automaticamente ou manualmente? Qualquer um pode ajudar? No momento, nenhum dos anfitriões está escrevendo nada para o FS, então nenhum dano poderia ser feito, eu presumo. O segundo host também expirou no momento e não pode iniciar o lock_gulmd.

    
por Icapan 06.08.2009 / 11:03

2 respostas

1

Se ele ainda não estiver cercado automaticamente, presumo que seu mecanismo de esgrima não esteja funcionando perfeitamente.

Suponho que o que se poderia fazer é reinicializar os hosts expirados (um por um ou ambos ao mesmo tempo) e informar que o fence do cluster foi bem-sucedido com a ferramenta fence_ack_manual. Isso não aparece nos seus registros?

A execução dessa ferramenta (no nó que solicitou sua execução, que não é o nó que precisou ser reinicializado) permitirá que o sistema de arquivos GFS e o nó defeituoso sejam recuperados. A recuperação consiste principalmente em o nó ser um membro de cluster apropriado novamente e o diário do sistema de arquivos GFS sendo reproduzido, se necessário, iirc.

    
por 06.08.2009 / 11:26
0
Honestamente, a melhor maneira de limpar problemas GFS como este, especialmente quando você está bloqueado para fora do sistema de arquivos, é simplesmente desligar todas as máquinas e depois reiniciar o cluster novamente. Foi a maneira mais confiável e geralmente a mais rápida de corrigir esses problemas quando eu estava organizando muitos sistemas de arquivos GFS.

    
por 06.08.2009 / 11:21