Brocade DCX 8510 latência inter DC - entendendo os OIDs para encontrar problemas L1

3

Tentando determinar se há alguma latência intermitente inter DC nos links FC, mas somente acesso aos contadores OID do DCX 8510. Como é um link L1 sobre o DWDM, não há estatísticas do provedor de serviços para medir quaisquer possíveis problemas além de conectar o kit de teste, que sempre fica limpo, pois o problema é intermitente.

Ver os valores aumentam para este OID quando o problema ocorre, mas tentar encontrar informações adequadas sobre ele é realmente difícil.

swfcportrxbados

Qualquer ajuda sobre uma melhor explicação sobre este OID e indicações de algumas informações para entender melhor os resultados do SNMP seria muito apreciada

    
por bern 24.01.2015 / 05:32

1 resposta

3

Antecedentes

swFCPortRxBadOs rastreia o número de conjuntos ordenados inválidos, na maioria das vezes é um erro contra uma interface física ou virtual, e também pode se aplicar a um backplane.

Conjuntos ordenados inválidos para DWDM ou FC direto, seja Cisco ou Broccade, geralmente são o resultado de um host ou nó com desempenho insatisfatório. Uma matriz RAID com seu comprimento de cue de disco acima de 6 ou mais no outro lado do DWDM pode resultar em um tempo limite do canal virtual. Isso normalmente significa que você tem canais virtuais ficando "presos". Quando uma porta do switch esgota todos os créditos disponíveis, a porta do switch conectada ao dispositivo precisa manter quadros de saída adicionais até que um crédito seja retornado pelo dispositivo para entrar no buffer. Quando um dispositivo não está respondendo dentro de um tempo limite, um interruptor de transmissão reterá os quadros por mais tempo, resultando em uma alta ocupação do buffer. Isso resulta na troca da taxa de retorno dos créditos de buffer para os outros comutadores de transmissão. Em seguida, isso é propagado por meio de switches (possivelmente vários switches com dispositivos que tentam enviar quadros para hosts ou switches conectados ao switch com o host ou comutador de alta latência) e afeta o desempenho do fabric.

Então ..... Próximos passos

Culpados possíveis

  1. Badness da camada física - Um SFP que está ou está indo mal que está do outro lado ou no switch que você está olhando.

  2. Canal virtual 'preso' - a explicação acima. Se o canal virtual estiver preso, ele não estará passando tráfego ou sinais e você verá os contadores er_bad_os aumentando.

A Brocade recomenda ativar o bottleneckmon no FOS. Ele irá redefinir o VC (canal virtual) quando houver uma segunda janela sem tráfego.

bottleneckmon –cfgcredittools -intport -recover onLrOnly

Quando um ou mais créditos forem perdidos, ele começará a procurar pela janela para redefinir o VC.

Este é um excelente PDF sobre as melhores práticas de resiliência de malha link

use o portstatushow para sua porta e veja se você obtém um er_bad_os 591691 Conjunto ordenado inválido

Ele pode lhe dar uma garantia de que sua experiência é um conjunto inválido de pedidos para que você possa começar a solucionar seus créditos e buffers, que é onde esses tipos de problemas ocorrem com frequência.

Ótimo artigo sobre créditos de buffer. link

    
por 24.01.2015 / 13:30