Como obter um alerta de email se um dos discos do RAID 1 falhar?

5

Preciso saber como posso receber um alerta por e-mail se um dos discos do RAID 1 não funcionar / travar. Eu tenho o CentOS 6.4 64bits, invasão de software.

Eu cometi alguns erros com este tutorial , porque era uma nota de fundo

NOTE: It has been found that mdadm will not send an e-mail if the DEVICE partitions section does not exist in the /etc/mdadm.conf file. If those sections do not exist a new /etc/mdadm.conf file can be created by using the following command: mdadm –detail –scan > /etc/mdadm.conf"

Eu executei essa linha e meu arquivo mdadm.conf estava vazio com essa resposta de ssh: "mdadm: An option must be given to set the mode before a second device (–scan) is listed"

Eu também entendo que tenho que começar usando esta linha ssh: mdadm –monitor –scan –daemonize mas eu recebo essa resposta " mdadm: An option must be given to set the mode before a second device (–scan) is listed "

isto é 'cat / proc / mdstat':

  Personalities : [raid1]
  md0 : active raid1 sdb1[1] sda2[0]
  117153664 blocks super 1.1 [2/2] [UU]
  bitmap: 1/1 pages [4KB], 65536KB chunk

   unused devices: <none>

e

 mdadm -D /dev/md0
/dev/md0:
    Version : 1.1
  Creation Time : Sat Aug 17 09:19:15 2013
 Raid Level : raid1
  Array Size : 117153664 (111.73 GiB 119.97 GB)
 Used Dev Size : 117153664 (111.73 GiB 119.97 GB)
  Raid Devices : 2
 Total Devices : 2
 Persistence : Superblock is persistent

 Intent Bitmap : Internal

  Update Time : Mon Sep 16 18:55:19 2013
      State : active
  Active Devices : 2
 Working Devices : 2
 Failed Devices : 0
 Spare Devices : 0

       Name : trader:0
       UUID : 0944131a:0513ca86:cb8ad6c5:3baca49f
     Events : 1751

Number   Major   Minor   RaidDevice State
   0       8        2        0      active sync   /dev/sda2
   1       8       17        1      active sync   /dev/sdb1

arquivo mdadm.conf gerado há 1 minuto com mdadm --examine --scan > /etc/mdadm.conf:

  MAILADDR [email protected]
  ARRAY /dev/md/0 metadata=1.1 UUID=0944131a:0513ca86:cb8ad6c5:3baca49f name=trader:0

Isso é suficiente para receber notificações por e-mail se um disco rígido falhar no meu caso?

    
por Blazer 16.09.2013 / 17:26

1 resposta

2

Blazer, parece que no processo de melhorar sua pergunta (que já é boa, por sinal), você encontrou sua própria resposta. Bem feito você! Mas há um pouco mais que poderia ser dito de maneira útil.

Até onde eu sei, mdadm.conf será suficiente para você receber notificações automáticas. Certamente, o meu parece muito pouco diferente disso, e sei de um recente teste de falha que recebo notificações. (Estou um pouco curioso sobre a segunda barra em /dev/md/0 , mas se foi isso que seu sistema escreveu, é bem provável que esteja certo.)

Mas é axiomático em sysadmin profissional que, a menos que você tenha testado algo, você não pode realmente saber que isso funciona.

No mínimo, você desejará verificar se pode enviar e-mails desse sistema, como root, para o endereço gmail.com especificado e recebê-lo.

Se eu fosse você, faria pelo menos um teste de falha suave. Você pode fazer isso com mdadm /dev/md0 -f /dev/sdb1 . Isso irá falhar a segunda partição fora da matriz, e deve gerar uma notificação formal para você (verificar logs de email do seu sistema para ver se ele foi embora). Verifique a saída de cat /proc/mdstat para saber como é um array meio ruim.

Você pode ressincronizar a matriz mais tarde com mdadm /dev/md0 -a /dev/sdb1 e verificar se ela está sincronizada novamente com outro cat /proc/mdstat .

Se você quiser ir todo o porco, agendar algum tempo de inatividade, tente puxar uma das unidades e verifique se o sistema ainda pode inicializar. Onde o metadevice em questão é a partição de inicialização, as pessoas às vezes esquecem de ter um bloco de inicialização GRUB nas unidades both , portanto, quando a segunda falha, o sistema torna-se não inicializável. Substitua e volte a sincronizar a unidade mais tarde.

Quaisquer testes que você decidir fazer, documente-os, para que, quando houver uma falha real, você saiba o que esperar e possa minimizar a chance de erro do piloto destruir a segunda unidade.

    
por 17.09.2013 / 10:28