Como posso saber se um disco está falhando no ESXi / o que esses erros significam?

10

Eu tenho um servidor executando o VMware ESXi v4.1.0 348481. Ele tem um hardware RAID10 e uma unidade de backup SATA. Eu tenho uma VM em execução que tem seu vmdk de inicialização principal no armazenamento de dados RAID10 e um vmdk de 600 GB no armazenamento de dados da unidade de backup SATA. A VM executa o Debian Linux com o kernel do FreeBSD e usa o ZFS para a unidade de backup.

EDITAR: A unidade não está diretamente conectada à VM. Ele é usado como um Datastore do VMware, e a VM tem um vmdk no armazenamento de dados da unidade SATA. O armazenamento de dados está não cheio (apenas 65% cheio)

Eu efetuei login no servidor usando o SSH e descobri que o backup da noite anterior estava suspenso e zfs list ou zpool list estavam suspensos. Então eu abri o console virtual no ESXi e fiquei triste de ver:

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Eu tentei reinicializar a VM e recebi uma mensagem informando que o sistema estava sendo reinicializado e, em seguida, que estava desativado. (^ C aparece, mas não mata shutdown ). Não consigo interromper ou kill -9 os processos zpool list zfs list ou rsync - Nada acontece quando tento.

  1. Isso indica que a unidade SATA de backup está falhando? Ou isso poderia ser apenas um erro do ESXi?
  2. Como no cliente vSphere eu poderia dizer se a unidade está falhando? Eu não vi nenhuma indicação, tudo em estado de integridade do hardware parece bom, e não vi nada sob a configuração de armazenamento.
  3. Como devo proceder daqui? Devo apenas reiniciar a VM?

ATUALIZAÇÃO: eu apenas reiniciei a VM. Depois que ele voltou on-line, o zpool de backup estava online, no entanto:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Estou muito inclinado a substituir a unidade ...

    
por Josh 26.08.2011 / 21:50

1 resposta

5

Esses erros realmente indicam que uma das unidades SATA encontrou blocos ruins suficientes para ficar sem espaço de realocação de bloco. Essa unidade é ruim e precisa ser substituída. Não tenho certeza de onde no cliente vSphere essa informação é exibida, mas as entradas de log são bem claras.

Se o seu hardware permitir, um hot-swap deve ser factível. Caso contrário, você terá que desligar tudo para realizar a troca. Se essa VM não se desligar depois de 30 minutos, é hora de terminá-la. É arriscado, mas se estiver realmente pendurado, não há muito para isso.

    
por 26.08.2011 / 22:05