Por que o Red Hat Cluster Suite parou de funcionar?

2

Eu testei o Cluster Suite no CentOS 6.4, e ele estava funcionando bem, mas percebi que hoje [ 8 de agosto, quando esta pergunta foi feita originalmente ] que não está gostando da configuração que estava trabalhando anteriormente. Tentei recriar uma configuração do zero usando o CCS, mas isso gerou erros de validação.

Editado em 21 de agosto:

Eu agora reinstalei a caixa completamente a partir da instalação mínima do CentOS 6.4 x86_64, adicionando os seguintes pacotes e suas dependências:

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

e

yum install rgmanager ccs

Os seguintes comandos funcionaram todos:

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

e resultou na seguinte configuração:

<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
    <fence_daemon/>
    <clusternodes>
        <clusternode name="ha-01" nodeid="1"/>
        <clusternode name="ha-02" nodeid="2"/>
    </clusternodes>
    <cman/>
    <fencedevices/>
    <rm>
        <failoverdomains/>
        <resources>
            <ip address="10.1.1.3" monitor_link="1"/>
            <ip address="10.1.1.4" monitor_link="1"/>
            <ip address="10.110.0.3" monitor_link="1"/>
            <ip address="10.110.8.3" monitor_link="1"/>
        </resources>
        <service autostart="1" name="routing-a" recovery="restart">
            <ip ref="10.1.1.3"/>
            <ip ref="10.110.0.3"/>
        </service>
        <service autostart="1" name="routing-b" recovery="restart">
            <ip ref="10.1.1.4"/>
            <ip ref="10.110.8.3"/>
        </service>
    </rm>
</cluster>

No entanto, se eu usar ccs_config_validate ou tentar iniciar o serviço cman , ele falhará com:

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

O que está acontecendo? Isso costumava funcionar!

    
por Iain Hallam 08.08.2013 / 12:11

2 respostas

0

Começou a trabalhar novamente, depois de mais yum update dançando. Eu comparei o antigo e o novo /var/lib/cluster/cluster.rng e, surpresa, surpresa, há uma diferença. Aquele nos sistemas que não funcionavam estava faltando quaisquer definições para o elemento <ip> .

A atual encarnação do sistema foi instalada a partir do mesmo CD mínimo, e eu tenho um procedimento passo-a-passo de comandos para recortar e colar, que funcionou várias vezes enquanto eu o desenvolvia, e falhou por quase dois meses , agora começa a trabalhar novamente. Eu construí a caixa cerca de meia dúzia de vezes, então eu acho que não é o procedimento.

Um lapso na parte da Red Hat, talvez, mas não sei como descobrir quais alterações foram registradas nesse arquivo nos últimos dois meses.

    
por 20.09.2013 / 15:01
0

Eu acho que você está perdendo os domínios de failover, se você quiser definir um serviço no cluster redhat, primeiro você precisa definir um failoverdomain, você pode usar um failoverdomain para muitos serviços ou um por serviço.

Se precisar de mais informações sobre o domínio de failover "man clurgmgrd"

Um domínio de failover é um subconjunto ordenado de membros ao qual um serviço pode estar vinculado. O seguinte

é uma lista de semântica que governa as opções de como as diferentes opções de configuração afetam o comportamento de um domínio de failover:

    
por 27.08.2013 / 12:22