Reparo de linha de comando do RAID5 definido no Server 2008 HyperV (ou Core)

1

Eu tenho uma caixa HyperV que está mostrando blocos ruins em um dos discos. Eu peguei isso do diskpart;

DISKPART> list disk

  Disk ###  Status         Size     Free     Dyn  Gpt
  --------  -------------  -------  -------  ---  ---
  Disk 0    Online          148 GB  4096 MB
  Disk 1    Online         1863 GB      0 B   *
  Disk 2    Online         1863 GB      0 B   *
  Disk 3    Errors         1863 GB      0 B   *

eu digitei

sel disk 3
offline disk
online disk

E agora está sendo exibido simplesmente como on-line. Isso é suficiente? Presumivelmente, ele pode contornar um bloco ruim ou dois. Existe alguma maneira de reformatar a falha e re-sincronizá-lo com a matriz da linha de comando. Terei que substituí-lo imediatamente?

Atualização - ainda mostra 'Falha Rd' após o reparo

Então, usando um cabo extra, eu pluguei um novo HDD adicional. Aparentemente eu devo deixar a unidade existente no lugar, pois ela não pode reparar uma matriz com um disco ausente (não sei por que - esse parece ter sido o ponto). Então fiz o seguinte para inicializá-lo;

sel disk 4
convert dynamic

para reparar o array;

sel vol 0
repair disk=4

Pelo que entendi, isso deve usar o novo disco 4 para reparar a matriz sem o disco com falha 3 . E como esperado, eu entendo isso:

  DISKPART> list vol

  Volume ###  Ltr  Label        Fs     Type        Size     Status     Info
  ----------  ---  -----------  -----  ----------  -------  ---------  --------
* Volume 0     E   E_RAID5_4TB  NTFS   RAID-5      3726 GB  Rebuild
  Volume 1     C   C_BOOT(MIR)  NTFS   Partition     39 GB  Healthy    System
  Volume 2     D   D_DATA(MIR)  NTFS   Partition     52 GB  Healthy
  Volume 3     G   G_IMAGES(MI  NTFS   Partition     52 GB  Healthy    Boot

No entanto, após cerca de 12 a 24 horas, a matriz retornou para Failed Rd e 1863 de espaço livre no novo disco. Eu tentei duas vezes agora com os mesmos resultados. Agora estou tentando o comando recover mais simples, mas estou esperando o mesmo resultado.

Durante a última década, essa continua sendo a minha experiência com o RAID. Para servidores pessoais onde a frequência de falhas de unidade é relativamente pequena (em torno de 2 a 3 anos na média), eu sou certamente da opinião de que o RAID do Windows é menos incômodo do que qualquer controlador de hardware que parece estar obsoleto no momento precisa usá-lo para recuperação. No entanto, acho que nunca consegui recuperar um array RAID com hardware ou software facilmente e viver o sonho da maneira prometida.

Quando (como eu esperava) o comando recover não conseguir reparar o disco, tentarei colocar fisicamente o novo disco rígido no lugar do disco com falha e tentar colocá-lo on-line dessa maneira. Eu me lembro vagamente de ter feito algo parecido da última vez.

Eu ficaria grato por mais conselhos para esta situação, mesmo que seja para me lembrar os passos para a substituição do disco físico.

    
por cirrus 15.08.2014 / 00:26

2 respostas

1

Assim como sempre foi a minha experiência, o processo de recuperação não parece funcionar da maneira como está documentado.

Eu resolvi isso clonando o disco com falha em um novo disco e, em seguida, conectando-o fisicamente no lugar do disco com falha. Em seguida, emiti o comando diskpart recover (que, acredito, é uma abreviação de repair .

Eu consegui fazer isso sem ter que recuperar CDs com inicialização ISO e hardware externo da seguinte forma:

1) Conecte o novo disco (usando uma porta sobressalente). E observe o ID do disco. Certifique-se de que está offline.

2) Coloque o volume RAID offline de forma limpa;     sel vol 0

REM Remove drive letter association - you may need to shut...
REM ...down any services using this
remove

offline vol

3) Localize o disco físico responsável pela falha. detail vol dirá quais discos estão no volume, list vol mostrará qual ID do disco tem erros. Todos os meus discos são modelos idênticos, então retirei fisicamente o cabo SATA, esperei alguns segundos e emiti list disk novamente para ver qual ID do disco estava faltando. E tomou nota disso. Então no meu caso,

sel disk 3
offline disk

4) Para clonar o disco o suficiente para que as janelas sejam enganadas e pensar que o novo disco era simplesmente o disco antigo reparado, eu suspeitava que precisaria ter a mesma 'assinatura' de disco, então eu precisava de uma cópia de setor de baixo nível.

A maioria das ferramentas de clonagem que usavam arquivos VSS ou copiados não funcionavam, então achei isso: link que foi brilhante e tem um EXE de instalação zero que parece ter sido projetado para ser executado no WinPE, então funcionou perfeitamente no servidor HyperV (portanto, presumivelmente também no Server Core) quando iniciado a partir da linha de comando.

Mais uma vez, no entanto, eu precisava saber quais discos eram fonte e destino, mas a ferramenta mostrava modelo de disco e número de série em vez de diskpart ID, então usei o mesmo truque de puxar os cabos físicos no meu (agora conhecido) HDD e relançando a ferramenta HDD Guru até ter escrito os identificadores dos dois discos dos quais eu precisava copiar.

Em seguida, executei a cópia que continuou mesmo após erros de leitura. Eu suspeito que eu só precisei copiar os primeiros setores, mas deixei que fosse executado até a conclusão de qualquer maneira (12 horas).

5) Agora puxe os dois cabos SATA, remova a unidade com falha e conecte o disco recém-clonado de volta ao lugar onde estava. Quando colocado de volta online, o Windows deve ver uma unidade com a mesma assinatura no mesmo slot onde achava que o disco com falha estava.

6) Então é só uma questão de reconstruir o array (mais 12 horas) e trazê-lo de volta online;

sel disk 3
online disk
sel vol 0
online vol
recover

12 horas depois ...

sel vol 0
assign letter=e

Então eu reiniciei porque era mais fácil do que reiniciar todos os serviços que eu tinha parado (ou seja, Hyper-v);

c:\> shutdown /r /t 0

No momento em que olhei de novo, com um disco saudável, o Hyper-V agora estava em execução e minhas VMs foram restauradas. Parece que o HyperV não executará VMs em matrizes de disco com falha. Parece que posso ter corrupção de unidade em um dos VHDs, mas isso é outra história.

É incrédulo que o processo de recuperação de RAID não seja um pouco mais inteligente, mas notei que muito, mesmo com produtos de backup do Windows ao longo dos anos, do Windows Backup para o ISA Backup / Restore - eles parecem supor que você Estarei recuperando exatamente o mesmo hardware, mesmo que o hardware esteja com defeito - o que torna o backup quase inútil.

Por enquanto estou de volta e correndo - espero que esta transcrição ajude alguém em uma posição similar.

    
por 19.08.2014 / 12:22
1

A matriz RAID virá com seu próprio software. A maioria dos controladores permite que você execute o software sob o núcleo. Se não, você pode executar alguns no BIOS e alguns fora de um CD. Com o RAID array, você normalmente precisa introduzir um novo disco rígido como um hot spare, ele então o adicionará ao próprio RAID e será sincronizado novamente. Um disco rígido alterado é agora um novo disco rígido com relação à matriz de ataque. Fazendo isso de qualquer outra maneira, você pode perder todo o seu array. Leia o Manual Fino sobre o seu controlador RAID.

    
por 15.08.2014 / 02:25