Erro de disco de hardware no ESX Guest, em uma unidade com backup de vmfs… como isso é possível?

7

Como um convidado dentro do ESX pode encontrar problemas como esse?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • fisicamente os dados estão em vmfs armazenados em um array raid6 (adaptec 5805), o que parece feliz
  • também o host ESX não registra nenhum problema
  • o tamanho do disco informado pelo convidado parece o mesmo que o tamanho do disco provisionado
  • por esx o convidado tem 9 unidades iguais em anexo e apenas 2 exibem este problema
por Tobi Oetiker 21.01.2012 / 17:45

2 respostas

1

Afinal, era um problema de hardware / firmware. Enquanto o Adaptec 5805 (com firmware mais recente) estava relatando todos os volumes RAID6 para estar no estado ideal, ele também relatou um volume para conter 'Faixas com falha'. O efeito disso parece ser que parte do volume RAID6 se torna ilegível (causando os erros citados na questão). O ESX parece não ver isso diretamente, mas a execução de dd if=/dev/zero of=file-on-damaged-volume diretamente no console do ESXi terminou em um erro de E / S enquanto ainda havia muito espaço no volume.

Nenhuma quantidade de arcconf verify / verify_fix é executada em volumes e os dispositivos físicos puderam detectar ou corrigir qualquer coisa ... Eventualmente, movi todos os dados do volume e recriou-os no nível de adaptec. Agora tudo está bem, mas minha confiança na capacidade da adaptec de proteger meus dados está seriamente prejudicada.

    
por 06.02.2012 / 12:02
1

Eu tive uma experiência semelhante no volume de backup para MS SQL no Win 2008 guest no ESX 4.0 - é um volume bruto exposto do arquivador NetApp.

O sistema operacional convidado está relatando (e ainda relata) setores defeituosos nesse volume.
Acho que isso aconteceu por causa de muitas operações de gravação de E / S, tempo limite temporário ou sobrecarga do arquivador.
Não há mais setores defeituosos relatados. NetApp "disk scrubing" diz que tudo está bem. Nenhum erro de arquivador relatado.

Mas vamos recriar esse volume mesmo assim e ver se isso resolve isso.

E os seus outros volumes neste arquivador? Você pode, por favor, verificar este volume com o comando "badblocks / dev / sdg"? (cuidado: grande sobrecarga de leitura)

    
por 27.01.2012 / 22:41