Que hardware STONITH para o poder de esgrima?

5

Gostaria de configurar um cluster de alta disponibilidade de dois nós usando o corosync / pacemaker / drbd. Para isso, claro, preciso de esgrima. Tanto quanto eu entendo, todas as soluções IPMI / iLO / ... fazem o trabalho, mas apenas enquanto o chassi tiver energia. No caso em que o nó B perde energia, o nó A não tem qualquer chance de usar o STONITH contra o nó B.

Que tipo de hardware resolve esse problema? Existe um servidor (rack padrão) que fornece hardware IPMI / iLO / ... funcionando com bateria? Devo usar um no-break conectado à rede?

    
por C-Otto 10.09.2014 / 17:44

2 respostas

4

Você pode configurar o fence baseado em iLO / IPMI e, em seguida, usar, por exemplo, o agente de fence fence_apc com um comutador de energia APC como um dispositivo fence secundário. Dessa forma, se o servidor perder energia, o agente fence secundário ainda poderá STONITH o servidor de uma maneira que faça sentido para o cluster.

como descrito aqui :

A node can have multiple fence methods and each fence method can have multiple fence devices.

Multiple fence methods are set up for redundancy/insurance. For example, you may be using a baseboard management fencing method for a node in your cluster such as IPMI, or iLO, or RSA, or DRAC. All of these depend on a network connection. If this connection would fail, fencing could not occur, so as a backup fence method you could declare a second method of fencing that used a power switch or somesuch to fence the node. If the first method failed to fence the node, the second fence method would be employed.

Você também pode considerar adicionar fence_manual como um agente secundário secundário , dessa forma você sempre pode recuperar seu cluster, mas a intervenção manual será necessária.

    
por 10.09.2014 / 20:16
8

Tanto quanto sei, não há solução padrão de hardware (ou software) para isso.
Você não pode disparar o outro nó na cabeça se não estiver lá.

Você pode lidar com isso de várias maneiras diferentes - uma que posso sugerir é usar uma PDU inteligente - Como último recurso, quando nenhuma outra técnica STONITH funciona, comanda suas tomadas de energia "desligadas" e você não precisa se preocupar com isso, até que alguém comande a energia "on" novamente. (Isso é realmente apenas uma proteção contra alguém puxando os cabos de energia acidentalmente ...)

Uma solução semelhante também pode ser feita usando switches gerenciados para desativar as portas às quais a máquina está conectada, ou soltá-las em uma VLAN "fixer" para que você possa se conectar à caixa e prepará-la para se juntar novamente ao cluster .

Ambas as ideias acima dependem de seus datacenters alimentados e conectados (a PDU, o Switch, etc., todos precisam estar funcionando, e a conectividade precisa estar presente para que você possa enviar comandos para o equipamento de infra-estrutura).

Se você não pode confiar na energia, uma solução clássica é configurar seus servidores NOT para ligar automaticamente após uma falha de energia (IPMI / iLO / etc. ainda quando o chassi é ligado, então você pode trazê-lo mais tarde como uma etapa manual, talvez depois de isolar suas portas de rede como descrito acima). Isso evita que um nó "ruim" volte on-line, mas adiciona um passo manual (ou automanual) ao processo.

Se o seu problema é conectividade e não energia, você tem um problema muito mais difícil - Nós desconectados precisam atirar eles mesmos na cabeça. (Esse é o motivo pelo qual minhas configurações de cluster não reativam automaticamente um membro com falha: quando uma caixa falha e volta, ela fica em um estado parcialmente online e espera que eu diga a ela para voltar. Essa é uma etapa manual, mas é uma que não deveria ter que acontecer com alguma frequência.)

    
por 10.09.2014 / 18:07