Conseguimos trazer o cartão de volta à vida, magicamente. Tiramos o cartão da máquina e o colocamos em uma máquina completamente diferente, executando algo redhat com drivers muito novos. A história conta que, na primeira vez que ele foi inicializado, o bios do raid não entrou em ação durante a inicialização (como vimos), mas o kernel relatou muitos erros diferentes. Eventualmente, ele foi capaz de trazê-lo e, em seguida, a próxima reinicialização do bios de ataque começou a funcionar novamente e inicializou de forma limpa. Colocamos de volta na máquina e tudo voltou à vida.
Para mim, isso soa como um problema com o microcódigo - eu já vi alguns drivers para coisas como placas de som, ataques suaves, placas de vídeo, etc. fazer o download de algum tipo de microcódigo para o cartão ao ligá-lo. Se a última vez que isso aconteceu, as coisas correram mal, ou se foi corrompido devido ao power blip das UPSs que chutam quando perdemos o poder (paredes pelo corredor se transformaram em uma cachoeira), então isso certamente explica o que aconteceu. p>
Pensei em publicar uma atualização para todos os futuros Googlers.
Editar 3 de janeiro de 2012: @rakslice fez o ponto de que esses cartões geralmente têm backups de bateria conectados. Nós não tínhamos tentado remover a bateria (não pensamos nisso), mas é uma ótima idéia. Qualquer outra pessoa que tenha esse problema pode querer tentar o mesmo. Nós ainda não temos certeza se o consertamos porque o kernel do Fedora fez algum aperto de mão mágico para recuperar a placa, ou se nós a deixamos sem energia por tempo suficiente para algo ser reiniciado.