O Volume Compartilhado do Cluster no Windows Server 2012 R2 cai com pequenas pausas iSCSI

2

Estamos nos deparando com um problema aqui em que o Volume compartilhado em cluster anexado ao nosso cluster do Hyper-V 2012 R2 está sendo descartado / com a menor interrupção da conexão SAN iSCSI que está usando. Este é, obviamente, um problema, pois faz com que todas as VMs travem ou desliguem.

As interrupções na conexão iSCSI SAN ocorrem quando o nó principal da SAN faz failover para sua réplica. Há cerca de 10 a 15 segundos de tempo de inatividade antes que o secundário seja atendido. Estamos usando uma solução baseada em FreeBSD + ZFS em conjunto com o HAST + CARP para fornecer armazenamento de alta disponibilidade.

O failover funciona quando um iSCSI LUN não agrupado é montado no lado do Windows, por exemplo, uma conexão normal com o iniciador. A E / S simplesmente fica em pausa até que a conexão seja restabelecida. Eu esperava o mesmo comportamento com o CSV, mas, infelizmente, parece ser muito exigente com os tempos limite de E / S.

Existe uma maneira de aumentar o tempo limite do CSV, ou talvez alguma outra correção para esse problema?

    
por cathode 11.09.2014 / 16:54

1 resposta

-1

já viu isso acontecer com muitas pessoas.

na maioria das vezes, o problema é um desses:

O tráfego de backup

não está perfeitamente isolado do tráfego de gerenciamento de cluster. como a Ethernet é uma merda, o aumento nas colisões de pacotes reduz drasticamente a largura de banda e o tempo de ida e volta para a pulsação. e depois boom! O CSV está inativo

outro problema comum é que a velocidade geral da Ethernet é muito baixa em comparação com a carga geral. quando o backup é iniciado, você recebe um grande aumento no tráfego por todos os tipos de motivos.

até onde sei, não há como prolongar o tempo limite. O CSV é extremamente exigente com o tempo limite do heartbeat. Depois de encontrar esse problema em alguns sites, definimos o limite de velocidade de E / S no BackupChain para reduzir o risco de isso ocorrer. No entanto, a solução real é evitar essas lacunas de conexão, pelo que vi até agora ...

    
por 11.09.2014 / 17:58