Eu tenho um servidor executando o VMware ESXi v4.1.0 348481. Ele tem um hardware RAID10 e uma unidade de backup SATA. Eu tenho uma VM em execução que tem seu vmdk de inicialização principal no armazenamento de dados RAID10 e um vmdk de 600 GB no armazenamento de dados da unidade de backup SATA. A VM executa o Debian Linux com o kernel do FreeBSD e usa o ZFS para a unidade de backup.
EDITAR: A unidade não está diretamente conectada à VM. Ele é usado como um Datastore do VMware, e a VM tem um vmdk no armazenamento de dados da unidade SATA. O armazenamento de dados está não cheio (apenas 65% cheio)
Eu efetuei login no servidor usando o SSH e descobri que o backup da noite anterior estava suspenso e zfs list
ou zpool list
estavam suspensos. Então eu abri o console virtual no ESXi e fiquei triste de ver:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Eu tentei reinicializar a VM e recebi uma mensagem informando que o sistema estava sendo reinicializado e, em seguida, que estava desativado. (^ C aparece, mas não mata shutdown
). Não consigo interromper ou kill -9
os processos zpool list
zfs list
ou rsync
- Nada acontece quando tento.
- Isso indica que a unidade SATA de backup está falhando? Ou isso poderia ser apenas um erro do ESXi?
- Como no cliente vSphere eu poderia dizer se a unidade está falhando? Eu não vi nenhuma indicação, tudo em estado de integridade do hardware parece bom, e não vi nada sob a configuração de armazenamento.
- Como devo proceder daqui? Devo apenas reiniciar a VM?
ATUALIZAÇÃO: eu apenas reiniciei a VM. Depois que ele voltou on-line, o zpool de backup estava online, no entanto:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Estou muito inclinado a substituir a unidade ...