Problemas de longa distância de canal de fibra

52

Eu preciso de um novo par de olhos.

Estamos usando uma linha de fibra óptica de 15 km na qual o fibrecanal e 10GbE são multiplexados (CWDM óptico passivo). Para o FC, temos lasers de longa distância adequados até 40 km ( Skylane SFCxx0404F0D ). O multiplexador é limitado pelos SFPs, que podem fazer no máx. Fibrocanal de 4Gb. O comutador FC é uma série Brocade 5000. Os respectivos comprimentos de onda são 1550,1570,1590 e 1610nm para FC e 1530nm para 10GbE.

O problema é que os tecidos 4GbFC quase nunca estão limpos. Às vezes, ficam por um tempo, mesmo com muito tráfego. De repente, eles podem começar a produzir erros (RX CRC, codificação RX, disparidade RX, ...) mesmo com apenas tráfego marginal neles. Estou anexando alguns gráficos de erro e tráfego. Atualmente, os erros estão na ordem de 50 a 100 erros a cada 5 minutos, com tráfego de 1 Gb / s.


Óptica

Aqui está a saída de energia de uma porta resumida (coletada usando sfpshowem diferentes switches)

Unidades SITE-A = uW (microwatt) SITE-B
**********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok)
      RX 54.3 TX 1468.4      

O que acho curioso neste momento é a assimetria nos níveis de potência. Enquanto o SW2 transmite com 1422uW, o SW4 recebe com 104uW, o SW2 recebe apenas o sinal SW4 com potência original semelhante apenas com 54uW.

Vice-versa para SW1-3.

De qualquer forma, os SFPs têm sensibilidade RX de até -18dBm (ca. 20uW), portanto, de qualquer forma, tudo deve estar bem ... Mas nada está.

Alguns SFPs foram diagnosticados como defeituosos pelo fabricante (os de 1550nm mostrados acima com "ko"). Os 1610nm aparentemente estão ok, eles foram testados usando um gerador de tráfego. A linha alugada também foi testada mais de uma vez. Tudo está dentro das tolerâncias. Estou aguardando as substituições, mas por algum motivo não acredito que isso melhore as coisas, pois as aparentemente boas também não produzem erros ZERO.

Anteriormente, havia equipamento ativo envolvido (algum tipo de retimer 4GFC) antes de colocar o sinal na linha. Não faço ideia do porquê. Esse equipamento foi eliminado por causa dos problemas, então agora temos apenas:

  • o laser de longa distância no comutador,
  • (novo) cabo monomodo LC-SC de 10 m para o mux (para cada tecido),
  • a linha alugada,
  • a mesma coisa, mas invertida no outro lado do link.


Comutadores FC

Aqui está uma configuração de porta do Brocade portcfgshow(é assim nos dois lados, obviamente)

Número da área: 0
Nível de velocidade: 4G
Preencher palavra (no ativo) 0 (inativo)
Preencher palavra (atual) 0 (inativo)
AL_PA Offset 13: OFF
Porta Tronco LIGADA
LS de longa distância
Inicialização do link VC desativada
Distância desejada 32 Km
Buffers reservados 70
L_Port bloqueado desativado
G_Port bloqueado desativado
E_Port desativado
E_Port bloqueado desativado
Modo ISL R_RDY DESLIGADO
Suprimido RSCN OFF
Desativação persistente OFF
LOS TOV habilitado OFF
Capacidade NPIV ativada
QOS E_Port OFF
Desativação automática da porta: OFF
Limite de taxa desativado
Porta EX OFF
Porta espelho desativada
Recuperação de crédito LIGADA
Buffers F_Port OFF
Atraso de falha: 0 (R_A_TOV)
Limite PP NPIV: 126
Modo CSCTL: OFF

Forçar os links para 2GbFC não produz erros, mas compramos 4GbFC e queremos 4GbFC.

gráficos de erro e tráfego

Não sei mais onde procurar. Alguma idéia do que tentar em seguida ou como proceder?

Se não podemos fazer com que o 4GbFC funcione de maneira confiável, pergunto-me o que as pessoas que trabalham com 8 ou 16 fazem ... Não suponho que "alguns erros aqui e ali" sejam aceitáveis.

Ah, e BTW, estamos em contato com todos os fabricantes (comutador FC, MUX, SFPs, ...) Exceto que os SFPs sejam alterados (alguns foram alterados antes), ninguém tem idéia. O Brocade SAN Health diz que o tecido está ok. MUX, bem, é passivo, é apenas um prisma, a natureza é a melhor.

Alguma foto no escuro?


APÊNDICE: Respostas às suas perguntas

@ Chopper3: Esta é a segunda geração de Brocades que apresenta o problema. Antes dos 5000, agora temos 5100. No começo, quando ainda tínhamos o MUX ativo, alugamos um laser de longa distância para colocá-lo no interruptor diretamente, a fim de fazer testes por um dia, durante esse dia, é claro que estava limpo. Mas como eu disse, às vezes é limpo assim. E às vezes não é. Comutadores alternativos significariam reconstruir toda a SAN com aqueles apenas para teste. SFPs alternativos, bem, eles são difíceis de encontrar assim.

@ longneck: A linha é alugada. É uma fibra escura (monomodo 9um), então não há mais ninguém nela. Claro que existem emendas. Não posso ir e olhar, mas tenho que confiar que eles foram feitos corretamente. Como eu disse, a linha foi verificada e verificada novamente (usando um refletômetro óptico no domínio do tempo). Obviamente, você não possui todo esse equipamento porque é muito caro.

@mdpc: Qual seria o tipo de cabo "errado" de acordo com você? Até o switch, tudo é monomodo, sim. Os conectores também são os corretos. Sim, eu sei que existem os verdes onde a fibra é cortada em um determinado ângulo, etc. Mas temos os corretos para tudo o que sei.


Relatório de Progresso # 1

Tivemos duas malhas (= 2x2 switches) com Brocade 5100s com FabricOS 6.4.1 e duas malhas (outras 2x2) no FabricOS 7.0.2.

Nos ISLs de longa distância (um em cada malha), descobriu-se que, com o FOS 6.4.1, configurando-o para longa distância, emite avisos sobre a configuração VC Init e, consequentemente, a palavra de preenchimento. Mas esses são apenas avisos. O FOS 7.0.2 exige que você faça modificações no VCI e na palavra-chave para links de longa distância.

A configuração do FOS 6.4.1 como LS (distância estática de longa distância) com VCI e configuração de palavra-chave incorretas tornou a malha inteira inoperacional (presa em um loop SCN, use fabriclog -spara ver, você não a vê em nenhum outro lugar, nenhum erro de porta contadores ou qualquer coisa que aumente).

Atualmente, estou dando uma surra no tecido com as configurações mais corretas do IMHO e parece que está indo bem, enquanto o outro sem muito tráfego ainda tem erros aqui e ali.

progress1

Em resumo:

  • Eliminamos a parte ativa do MUX (o retimer FC).
  • Estamos colocando os SFPs de longa distância no próprio equipamento final.
  • Apenas para ter certeza de que compramos novos cabos monomodo para conectar o equipamento final à parte passiva restante do MUX.
  • Agora estamos testando várias configurações de longa distância.

É quase magia negra. Tudo o que acontece é principalmente empírico, ninguém parece ter uma idéia de quais são os motivos exatos para fazer algo. ("Tentamos isso, e não funcionou, depois tentamos e funcionou, por isso continuamos com isso." Mas ninguém realmente sabe o porquê.)

Vou mantê-lo atualizado.


Relatório de Progresso # 2

Temos os novos lasers para um dos tecidos em garantia. É ultra limpo, mesmo em 4GbFC.

Eles estão transmitindo com aproximadamente 2mW (3dBm), enquanto os outros estão apenas com 1,5mW (1,5dBm), embora isso deva realmente ser suficiente.

O outro tecido (onde os lasers estão aparentemente ok) ainda produz um ou dois CRCs com pouca frequência.

O uso sfpshowdo SFP produzindo os erros reais de RX mostra

Status / Ctrl: 0x82
Sinalizadores de alarme [0,1] = 0x5, 0x40
Avisar sinalizadores [0,1] = 0x5, 0x40

Agora vou ter que descobrir o que isso significa. Não tenho certeza se estava lá antes.

Bem, primeiro vou clarear minha cabeça com uma semana de férias. 8-)

Marki
fonte
8
Antes de tudo, ótima pergunta, exatamente para que serve este site, bem feito. Em segundo lugar, você tem acesso a switches / SFP alternativos - idealmente outra marca / modelo que você poderia trocar para testar?
precisa saber é o seguinte
4
Grande atualização, manter o bom trabalho, gostaria de ter algumas sugestões ou conselhos, mas você está no caminho certo, bom para encontrar um novo usuário no SF que sabe seu material :)
Chopper3
11
Existem consistências no tempo ou na duração dos erros? Eles sempre ocorrem às N horas? Eles sempre duram X minutos? Você pode correlacioná-los com o clima, eventos esportivos próximos ou outro fenômeno? Problemas intermitentes são os bugs mais difíceis de esmagar, e geralmente começo a atacá-los, fazendo gráficos dos tempos e durações em que ocorrem em um quadro branco. Espero que surjam padrões que possam ser correlacionados com outro fenômeno .
dotancohen 29/08
2
Você os está rastreando em um quadro branco, visível para todos ? Não vou pressionar, mas eu recomendo. Como você disse, você precisa de um novo par de olhos e talvez alguém em sua organização veja o padrão emergir dos tempos / durações, e não necessariamente dos sintomas.
dotancohen 29/08
11
Oi Marki. Não estou totalmente familiarizado com o que você está falando, mas na sua última atualização parece que o problema foi corrigido pelos SFP de substituição? Nesse caso, provavelmente é uma boa ideia postar isso como resposta e fazer uma nova pergunta se tiver mais problemas.
Mark Henderson

Respostas:

4

Ok, acho que preciso postar uma resposta. Em uma palavra é: insista .

O problema não é resolvido 100% ao meu gosto, pois ainda temos uma malha com 1 (um) erro de CRC esporadicamente. O outro está limpo. Mas eu posso viver com isso.

De qualquer forma, não continuaremos a usar as unidades CWDM por muito tempo, mas mudaremos para um multiplexador DWDM passivo no próximo ano, pois nossa infraestrutura mudará muito. Aparentemente, os lasers DWDM também são mais baratos que os CWDM. Ah, vamos ver e talvez eu tenha muitos problemas para perguntar, então :-)


Atualização Não, para o exposto, compramos o CWDM novamente e é realmente menos caro. AFAICS para determinadas aplicações, no entanto, você precisa usar o DWDM porque não há lasers CWDM para ele. Finalmente, tentamos chegar o mais perto possível do fabricante e a coisa toda custou cerca de 1/5 do preço em comparação à compra de um distribuidor ou mesmo de um integrador.


Para concluir, se você comprou uma solução que não funciona como o esperado: insista. No lado técnico, fizemos duas coisas

  • remova a parte ativa do MUX (não posso me arrepender disso, mas também não tenho certeza se isso foi finalmente outra fonte de erro ou não)
  • ter os SFPs completamente verificados

(E, claro, todos os diagnósticos padrão, mude uma coisa de cada vez, veja o que acontece etc., não precisa dizer isso. Por isso, verificamos cada linha e cabo etc. também, infelizmente às nossas custas.)

Nesse caso, demorou muito tempo para insistir, mas finalmente chegamos ao nível em que o próprio fabricante poupou algumas pessoas e alguns equipamentos para realizar as verificações que ajudaram. E é claro que o integrador pagou isso, já que nosso hardware está em manutenção. Portanto, esse era um desafio comercial e técnico.

PS. Ah, e os sinalizadores que mencionei na minha última atualização não indicavam nada de ruim, mas não me lembro o que eles queriam dizer exatamente. Quando encontrar a declaração, atualizarei a resposta por uma questão de integridade.


No final, as bandeiras significavam algo ruim, afinal. Aparentemente, no entanto, não é certo qual lado do link é a causa dos erros. Então esse par também precisa ser mudado.

Oh e BTW, os transceptores DWDM de 8GbFC são apenas mais baratos em comparação com o 8G CWDM ;-) O caminho mais barato é 4GbFC no CWDM e, em seguida, use o entroncamento ISL (se você tiver a licença)

Marki
fonte
Infelizmente, não vi isso quando perguntado. Não posso ter certeza de que isso ajudaria, mas se você estiver usando palavras-chave ociosas, estará enviando muita luz. Isso significa que cada quadro não utilizado está consumindo muita energia e gerando muito calor no SFP, eu acho. Alterar a palavra-chave para outro modo (eu uso o modo 3, mas tenho um switch e SFP diferentes) pode permitir que você forneça mais taxa de transferência com menos erros.
Basil
@Basil eu sabia usando o fillword correta era um problema para a sincronização de palavra em 8GFC mas eu tenho pensado nisso desta maneira ...
Marki
É recomendado a qualquer momento que você possa usá-lo; até onde eu sei, é uma questão de quanta interferência um quadro inativo faz com que o SFP crie.
229 Basil Basil