Espaço de armazenamento com falha no disco - Volume off-line

2

Nós configuramos um servidor físico barato com um monte de discos de 3 TB para usar como uma área temporária de backup antes de enviarmos para a fita. Instalamos o Windows Server 2012 R2 e configuramos espaços / pools de armazenamento. Fazemos backup usando a Veeam em um servidor mais rápido executado no fibre channel e, em seguida, usamos scripts para mover backups que são mais antigos do que x dias para o nosso servidor Storage Spaces.

Tivemos algumas falhas originalmente, pois descobrimos que usar o Robocopy para mover os dados pelo caminho UNC não fechava a conexão SMB. resolvemos isso adicionando net use e, em seguida, net use / delete ao script (e, em seguida, usando a letra da unidade como o destino Robocopy). Isso funcionou maravilhosamente durante a última semana ou duas.

Esta manhã, porém, os scripts relataram falhas. Após a investigação, encontrei uma série de avisos de ID do evento 51, seguidos pelo ID do evento 134 (do ReFS de origem). Isso me parece que um disco físico no pool de armazenamento falhou. No entanto, olhando no Gerenciador de Servidores, ele mostrava o disco / volume virtual / não tinha certeza do que chamar de 'offline'; simplesmente trazê-lo de volta on-line funcionou e não há discos físicos com falha no pool de armazenamento. Há também duas peças de reposição quentes, e nenhuma delas foi trocada.

Estou curioso para saber o que aconteceu aqui? E também por que o volume ficou offline? Eu pensei que o objetivo do ReFS e do Storage Pools era fornecer confiança no caso desses tipos de falhas?

EDIT: Adicionando todos os registros relevantes abaixo.

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
  <Provider Name="disk" /> 
  <EventID Qualifiers="32772">51</EventID> 
  <Level>3</Level> 
  <Task>0</Task> 
  <Keywords>0x80000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-23T22:13:12.704827200Z" /> 
  <EventRecordID>23901</EventRecordID> 
  <Channel>System</Channel> 
  <Computer>****</Computer> 
  <Security /> 
  </System>
 <EventData>
  <Data>\Device\Harddisk25\DR25</Data> 
  <Binary>040080000100000000000000330004802D0100006B0400C000000000000000000000000000000000FC8F470200000000FFFFFFFF0100000058000030020000000020101280032040000080003C000000000020AB09E0FFFF783583D201E0FFFF0000000000000000507383D201E0FFFF30C99FC108E0FFFF6B0400C0000000008A00000000027C288D60000008000000000000000000000000000000000000000000000000000000</Binary> 
  </EventData>
  </Event>

An error was detected on device \Device\Harddisk25\DR25 during a paging operation.

FYI Disk25 é o disco virtual criado por espaços de armazenamento, não um dos discos físicos

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
 <System>
  <Provider Name="ReFS" Guid="{036647D2-2FB0-4E32-8349-3F5C19C16E5E}" /> 
  <EventID>134</EventID> 
  <Version>0</Version> 
  <Level>2</Level> 
  <Task>0</Task> 
  <Opcode>0</Opcode> 
  <Keywords>0x8000000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-23T22:13:13.329846900Z" /> 
  <EventRecordID>23902</EventRecordID> 
  <Correlation /> 
  <Execution ProcessID="4" ThreadID="31267444" /> 
  <Channel>System</Channel> 
  <Computer>COMSTOR.muh.uni.mq.edu.au</Computer> 
  <Security UserID="S-1-5-18" /> 
  </System>
<EventData>
  <Data Name="VolumeIdLength">2</Data> 
  <Data Name="VolumeId">D:</Data> 
  <Data Name="FailureReason">0xc000000e</Data> 
  </EventData>
  </Event>

The file system was unable to write metadata to the media backing volume D:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.

 <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
 <System>
  <Provider Name="Microsoft-Windows-StorageSpaces-Driver" Guid="{595F7F52-C90A-4026-A125-8EB5E083F15E}" /> 
  <EventID>304</EventID> 
  <Version>0</Version> 
  <Level>3</Level> 
  <Task>0</Task> 
  <Opcode>0</Opcode> 
  <Keywords>0x8000000000000000</Keywords> 
  <TimeCreated SystemTime="2014-12-30T23:43:40.519688500Z" /> 
  <EventRecordID>21</EventRecordID> 
  <Correlation /> 
  <Execution ProcessID="4" ThreadID="3723912" /> 
  <Channel>Microsoft-Windows-StorageSpaces-Driver/Operational</Channel> 
  <Computer>****</Computer> 
  <Security UserID="S-1-5-18" /> 
  </System>
 <EventData>
  <Data Name="Id">{DE94C7EF-6A25-11E4-80B7-647002019326}</Data> 
  </EventData>
  </Event>

The virtual disk {de94c7ef-6a25-11e4-80b7-647002019326} is in a degraded state. This can happen when a physical disk hosting the virtual disk fails, is disconnected, or experiences a write error.

Windows will attempt to repair the virtual disk. No action is needed at this time.

    
por Matt 23.12.2014 / 21:57

2 respostas

0

Após uma longa discussão por e-mail com um engenheiro de suporte da Microsoft, acabamos instalando a seguinte atualização cumulativa:

link

Isso inclui uma atualização que parece segmentar especificamente esse problema:

link

Desde a instalação da atualização cumulativa, o volume permaneceu on-line de maneira consistente sem nenhum problema.

    
por 20.03.2015 / 00:09
1

Supondo que você esteja definitivamente usando um modo tolerante a falhas, como paridade ou espelho, esse erro não deve ser possível. Eu era capaz de reproduzir esse erro em uma configuração de striping com um disco que eu sei que é ruim. Então, você está pronto para o striping ou encontrou um bug. Eu envolveria a Microsoft neste momento, se você ainda não o fez.

    
por 11.01.2015 / 05:15