Experiência com cartões RAID AMAC 3ware 9650se? A nossa parece morta

2

Temos uma placa raid 3ware 9650se de 8 portas para nossa matriz de disco principal. Tivemos que desligar o servidor por causa de uma queda de energia pendente e, quando voltamos a ligar a máquina, a placa de ataque nunca começou.

Este cartão está em serviço há alguns anos sem problemas e estava funcionando até o desligamento.

Agora, quando ligamos a máquina, a opção bios rom normalmente entra em ação antes que o gerenciador de inicialização não apareça, nenhuma das unidades é acionada e, quando o sistema operacional tenta acessar o dispositivo, ele apenas expira.

O firmware foi atualizado no passado, então é possível que tenhamos encontrado algum tipo de bug de firmware.

Estamos usando em uma máquina Silicon Mechanics R272 com o gentoo para o sistema operacional. O sistema operacional eventualmente inicializa, mas infelizmente, sem o cartão.

Encomendamos um novo, mas estou preocupado que, se substituirmos o cartão, ele não reconheça o array existente. Alguém já realizou uma troca de cartão antes?

Qualquer ajuda seria muito apreciada.

Edit: Estes são os erros do kernel que vemos:

3ware 9000 Storage Controller device driver for Linux v2.26.02.012.
3w-9xxx 0000:09:00.0: PCI INT A -> GSI 18 (level, low) -> IRQ 18
3w-9xxx 0000:09:00.0: setting latency timer to 64
3w-9xxx: scsi0: ERROR: (0x06:0x000D): PCI Abort: clearing.
3w-9xxx: scsi0: ERROR: (0x06:0x001F): Microcontroller not ready during reset sequence.
3w-9xxx: scsi0: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
3w-9xxx 0000:09:00.0: PCI INT A disabled
    
por antiduh 29.04.2010 / 06:32

10 respostas

0

Conseguimos trazer o cartão de volta à vida, magicamente. Tiramos o cartão da máquina e o colocamos em uma máquina completamente diferente, executando algo redhat com drivers muito novos. A história conta que, na primeira vez que ele foi inicializado, o bios do raid não entrou em ação durante a inicialização (como vimos), mas o kernel relatou muitos erros diferentes. Eventualmente, ele foi capaz de trazê-lo e, em seguida, a próxima reinicialização do bios de ataque começou a funcionar novamente e inicializou de forma limpa. Colocamos de volta na máquina e tudo voltou à vida.

Para mim, isso soa como um problema com o microcódigo - eu já vi alguns drivers para coisas como placas de som, ataques suaves, placas de vídeo, etc. fazer o download de algum tipo de microcódigo para o cartão ao ligá-lo. Se a última vez que isso aconteceu, as coisas correram mal, ou se foi corrompido devido ao power blip das UPSs que chutam quando perdemos o poder (paredes pelo corredor se transformaram em uma cachoeira), então isso certamente explica o que aconteceu. p>

Pensei em publicar uma atualização para todos os futuros Googlers.

Editar 3 de janeiro de 2012: @rakslice fez o ponto de que esses cartões geralmente têm backups de bateria conectados. Nós não tínhamos tentado remover a bateria (não pensamos nisso), mas é uma ótima idéia. Qualquer outra pessoa que tenha esse problema pode querer tentar o mesmo. Nós ainda não temos certeza se o consertamos porque o kernel do Fedora fez algum aperto de mão mágico para recuperar a placa, ou se nós a deixamos sem energia por tempo suficiente para algo ser reiniciado.

    
por 30.04.2010 / 00:28
3

É bastante indolor trocar cartões 3ware.

Apenas certifique-se de que é o mesmo modelo ou mais recente e que as versões de firmware são as mesmas. Se as versões do firmware forem diferentes, os discos não serão importados para o controlador. (esteve lá, fez isso)

O cartão antigo aparece em lspci ? Eu tive problemas onde as configurações do BIOS seriam embaralhadas e causariam a placa não aparecer. Eu tive que reativar o slot PCI e também habilitar o MSI para que as placas 3Ware apareçam novamente.

    
por 29.04.2010 / 11:01
2

Este é o Dan que postou anteriormente, desta vez eu criei uma conta:)

De qualquer forma, agora que meus dados foram retirados .. Eu decidi brincar com o cartão e sucesso !!

  1. Versão baixada do LiveCD do Ubuntu 10.04.3 LTS

  2. Iniciou o Live e garantiu a detecção do cartão ('tail / var / log / messages | grep 3w -')

  3. Instalado o tw_cli a partir do repositório do seguinte sujeito: link

  4. Baixou o firmware mais recente (2.08.00.009) do CodeSet 9.3.0.8 para o 9500S-8 de link

  5. Usado tw_cli para fazer o flash do firmware (o estoque tw_cli da 3ware não suporta isso). Eu não usei a bandeira da força e brilhou apesar de já ter a mesma versão.

  6. Reiniciei quando me disse isso.

O BIOS agora surge como esperado!

RMA meu! @ #. Talvez eu deva compartilhar isso com o 3Ware. Muito obrigado a todos por ouvir.

    
por 24.09.2011 / 18:51
2

Algumas informações sobre o uso de 3ware 9650 em placas-mãe comuns e modernas:

  • Evite placas de tamanho total de 9650, pois elas não funcionam com placas-mãe mais novas, o BIOS não entra em ação após a reinicialização por software. Em placas-mãe mais antigas elas funcionam bem (testadas em placas-mãe core2).

  • As placas 9650SE de baixo perfil são posteriormente produzidas e funcionam bem em modernas placas-mãe uefi etc.

  • Eles ainda estão trabalhando (a maioria deles feitos por volta de 2007, talvez?)

  • Não viu uma bateria com falha ainda, após 8-9 anos (usá-los em condições ideais, baterias sempre verificadas, carregadas).

  • Você pode trocar de cartão, mas usar o mesmo firmware (ou mais recente, se a mesma versão não estiver disponível). Ao construir invasões, use as portas inferiores primeiro, porque você também pode alternar para uma placa 9650 com menos portas, contanto que as portas mais altas não sejam usadas na placa original.

  • evite a primeira porta x16 pci express na placa-mãe, algumas placas-mãe estão esperando placas de vídeo lá, causando um comportamento estranho.

  • instalando o 3dm2 e o cli está funcionando no Ubuntu (testado: 14.04LTS, 16.04LTS), apenas execute o shell script a partir da instalação.

  • É uma pena que 3ware não seja mais, são ótimos produtos

  • se você usá-los ainda, infelizmente é hora de swicth para algo novo. Receio que exista apenas o LSI (agora banda larga) a considerar.

  • depois que a Broadcom comprou a Avago, eles fizeram alterações no site da Avago, drivers / downloads são mais difíceis de encontrar para a 3ware.

por 19.08.2016 / 12:15
1

Você deve ser bom, eu não fiz isso com essa carta em particular, mas com muitas outras cartas de raide de Hardware. A única coisa que eu sugiro que você faça é jogar a placa em outra máquina, certificar-se de que ela funciona e está no mesmo nível de BIOS do seu cartão antigo - se for preciso, faça o downgrade.

    
por 29.04.2010 / 06:37
1

Os cartões de 3ware são excelentes na compatibilidade da matriz. Certifique-se de que o firmware não é mais antigo que o cartão antigo (até onde você pode determinar), e você provavelmente desejará tentar manter dentro da mesma série, se possível.

Mantenha esses dois em mente e isso simplesmente funciona.

    
por 29.04.2010 / 16:20
1

Por acaso fiz algumas reinicializações repetitivas em uma máquina que tinha um 9500S-8 e parece ter sofrido o mesmo destino. Me deparei com um artigo para o 9650 da 3ware dizendo como corrigi-lo. Eu não pude acreditar que a solução da 3Ware da única opção sendo para a placa RMA.

De qualquer forma, não consegui aplicar nenhuma das ditas magias para reviver o BIOS. Felizmente, após algumas reinicializações em uma máquina diferente, ele foi detectado corretamente após a inicialização (o BIOS ainda não está funcionando), detectou o RAID Array e eu sou capaz de montá-lo e puxar meus dados.

Ambas as distribuições do Ubuntu e do Fedora mostram todas as informações do cartão, exceto uma: a seqüência do BIOS não foi encontrada. Vou puxar meus dados antes de começar a mexer com atualizações de firmware, enquanto isso, antiduh, se você ainda está por perto e lendo isso, você tem alguma informação adicional sobre a versão ou drivers Redhat ou outro procedimento que eu possa tentar? ? Eu não estou convencido de que uma atualização de firmware irá resolver isso ..

    
por 06.09.2011 / 16:44
0

Eu troquei uma placa de 8 portas por uma placa de 12 portas (editar pensando que era uma 9500 e não uma 9650) e a outra placa detectou a matriz, então eu teria todas as expectativas de que funcionaria com base na minha experiência.

    
por 29.04.2010 / 08:16
0

Eu tenho um cartão estável de 3Ware 9650SE e a troca é fácil. Eu testei isso antes de implantar como eu tenho 4 e 8 cartões de porta. No entanto, recentemente minha experiência com 3ware azedou mal. Começou com um bloqueio na caixa de backup com 5 unidades de 1,5 TB. O controlador era instável, quando muito carregado (apenas descompactando um arquivo tgz grande), e travava dentro de um dia de teste de burn-in. Um controlador de reposição funcionou bem. Então um segundo controlador falhou e eu enviei as 4 substituições anteriores de volta. Todos eles falham dentro de 48 horas do teste de burn-in no firmware fornecido ou o mais recente. Uma matriz de ataque 5 de 5 a 7 unidades irá, às vezes, travar o sistema de tal forma que a placa não será detectada, a menos que o sistema seja desligado. Um RAID 5 array de 4 HDs também falhará - mas leva alguns dias em vez de horas. O pessoal de QA não vai falar comigo porque eu não uso suas placas-mãe aprovadas - mas eu tenho três placas-mãe diferentes (todas Asus, AMD 2, Intel) que eu uso para testes - e uma placa com falha falha em todos eles. As falhas são basicamente uma enxurrada de erros de paridade. Normalmente, uma pessoa verá mensagens sobre o cartão não responder e ser redefinido e, em seguida, fará uma interrupção imediata e a corrupção dos dados sendo manipulados.

Agora não posso confiar nas cartas. Apenas um teste de burn-in por alguns dias revela se um cartão ficará estável sob carga. Enviá-los para a substituição da garantia parece ser um método para trocar um cartão escamoso por um cartão diferente.

    
por 22.06.2010 / 21:20
0

Eu tive excelentes resultados com o 3ware 9650se. Eu possuí vários deles: alguns cartões de 2 portas, um par de 4 cartões de porta e uma porta de 12 que eu me acostumei por um ótimo preço. Eu costumo conectá-los no slot PCI-e que é usado para uma placa de vídeo, e eles simplesmente funcionam.

Embora eu tenha encontrado uma configuração de bios que causa falhas. É chamado de temporizador de latência PCI. Eu uso um monte de mainboards da AMD, e aqueles que têm esta opção de BIOS serão padronizados para 64. A menos que eu configure para 32, nada é estável.

Enfim, estou prestes a atualizar um array para 5 x 2TB e vou ter que trocar controladores, então suas respostas me deram esperança.

As informações sobre a matriz são gravadas nas unidades? É assim que um controlador diferente pode importar o array? (Eu preciso ver como isso é feito)

    
por 29.11.2010 / 04:34