NFS exportfs logs de spam. Esta é uma configuração quebrada?

1

Eu tenho um servidor NFS rodando o Ubuntu 10.04, servindo um sistema de arquivos OCFS2. A configuração é complicada porque o servidor tem Heartbeat e Pacemaker instalados para fazer um cluster com outro servidor.

De qualquer forma, o estranho:

# tail -12 /var/log/messages
Jul 17 17:15:45 ctserv01 exportfs[14870]: INFO: Directory /export/homes is exported to 172.16.54.0/24 (started).
Jul 17 17:15:45 ctserv01 exportfs[14869]: INFO: Directory /export/proyectos is exported to 172.16.54.0/24 (started).
Jul 17 17:15:45 ctserv01 exportfs[14871]: INFO: Directory /export is exported to 172.16.54.0/24 (started).
Jul 17 17:16:15 ctserv01 exportfs[15960]: INFO: Directory /export/proyectos is exported to 172.16.54.0/24 (started).
Jul 17 17:16:15 ctserv01 exportfs[15961]: INFO: Directory /export is exported to 172.16.54.0/24 (started).
Jul 17 17:16:15 ctserv01 exportfs[15962]: INFO: Directory /export/homes is exported to 172.16.54.0/24 (started).
Jul 17 17:16:45 ctserv01 exportfs[17054]: INFO: Directory /export/proyectos is exported to 172.16.54.0/24 (started).
Jul 17 17:16:45 ctserv01 exportfs[17055]: INFO: Directory /export/homes is exported to 172.16.54.0/24 (started).
Jul 17 17:16:45 ctserv01 exportfs[17056]: INFO: Directory /export is exported to 172.16.54.0/24 (started).
Jul 17 17:17:15 ctserv01 exportfs[18168]: INFO: Directory /export is exported to 172.16.54.0/24 (started).
Jul 17 17:17:15 ctserv01 exportfs[18169]: INFO: Directory /export/proyectos is exported to 172.16.54.0/24 (started).
Jul 17 17:17:15 ctserv01 exportfs[18170]: INFO: Directory /export/homes is exported to 172.16.54.0/24 (started).

Logs mostram exportfs sendo respawned a cada 30 segundos. O servidor NFS funciona bem a maior parte do tempo, mas depois de alguns dias, ele fica pendurado por até 20 segundos a cada 13 ou 15 minutos, e as pessoas reclamam disso.

Talvez o Pacemaker, ou Heartbeat, ou qualquer outra coisa, esteja causando isso. Ou talvez seja o comportamento esperado e o problema deve estar em outro lugar?

Configuração do marcapasso (note / export / proyectos está parado agora):

# crm configure show
node $id="06334af6-e766-457c-8c30-457080276507" ctserv01
node $id="bf53e028-9f27-4ef3-bb45-4fcef981e441" ctserv02
primitive ClusterIP ocf:heartbeat:IPaddr2 \
    params ip="172.16.54.56" cidr_netmask="24" nic="eth0"
primitive exports_nfs_home ocf:heartbeat:exportfs \
    params rmtab_backup="none" directory="/export/homes" clientspec="172.16.54.0/24" options="rw,async,no_subtree_check,insecure,root_squash" fsid="1" \
    op monitor interval="30s" \
    op start interval="0" timeout="240s" \
    meta target-role="Started"
primitive exports_nfs_proys ocf:heartbeat:exportfs \
    params rmtab_backup="none" directory="/export/proyectos" clientspec="172.16.54.0/24" options="rw,async,no_subtree_check,insecure,root_squash" fsid="2" \
    op monitor interval="30s" \
    op start interval="0" timeout="240s" \
    meta target-role="Stopped"
primitive exports_nfs_root ocf:heartbeat:exportfs \
    params rmtab_backup="none" directory="/export" clientspec="172.16.54.0/24" options="rw,async,no_subtree_check,insecure" fsid="0" \
    op monitor interval="30s" \
    op start interval="0" timeout="240s"
group grupo_nfs ClusterIP exports_nfs_root exports_nfs_home exports_nfs_proys
location nodo_preferido grupo_nfs 100: 06334af6-e766-457c-8c30-457080276507
order orden_de_recursos inf: ClusterIP exports_nfs_root exports_nfs_home exports_nfs_proys
property $id="cib-bootstrap-options" \
    dc-version="1.1.6-9971ebba4494012a93c03b40a2c58ec0eb60f50c" \
    cluster-infrastructure="Heartbeat" \
    stonith-enabled="false" \
    no-quorum-policy="ignore" \
    expected-quorum-votes="2" \
    cluster-recheck-interval="60min"
    
por Jorge Suárez de Lis 17.07.2012 / 17:39

1 resposta

2

As mensagens de log de spam que você vê são provenientes do agente de recursos ocf:heartbeat:exportfs . Eles aparecem a cada 30 segundos, o que corresponde ao intervalo de monitoramento especificado nas definições primitivas do exportfs. O agente de recursos é um pouco detalhado demais, IMHO, mas isso não deve ser um problema. Apenas certifique-se de logrotate com freqüência suficiente para que os logs não encham seus discos. Ou edite o agente de recursos para ser menos detalhado.

Seu problema provavelmente está em algum lugar mais profundo em sua configuração de cluster. A configuração do Pacemaker que você colocou é completa? Parece-me que o cluster não está gerenciando todos os recursos que deveria, como o próprio servidor NFS, idmapd ou montar o bind.

O NFS (no Linux) é notoriamente difícil de acertar em um ambiente de alta disponibilidade. Eu recomendo que você leia este guia de tecnologia sobre HA NFS da Linbit , os caras que fizeram DRBD e muito da pilha HA do Linux. O registro gratuito é obrigatório, mas é um guia muito bom e detalhado sobre como configurar um cluster de HA do NFS estável e funcional. Nós operamos vários clusters como este na produção.

    
por 27.08.2012 / 14:09