little or no down time
Embora seja de pouca ajuda agora, você deve estar executando a empresa, pois precisa de alta disponibilidade, o recurso mais óbvio que você usaria nessa situação é a capacidade de ter até 16 nós em um cluster, portanto, no seu caso teria adicionado mais 2 nós e, em seguida, removido os que você não queria mais. Eu consideraria atualizar a versão enquanto você está atualizando o hardware
... But I'm also being told that this is a dangerous step because something could go wrong that would cause the cluster to fail and then we would be left with nothing because the active server would not be able to come back up.
Tudo é possível. Embora eu nunca tenha visto um cluster de failover de 208 sql 2008 de servidor simplesmente cair morto, é teoricamente possível. Observe que o nó ativo não está "inativo" durante a atualização do nó, portanto, não há nada para ser desativado. O cluster está executando simplesmente em 1 nó sem possibilidade de failover. O pior cenário possível é que o nó antigo está de alguma forma morto e a substituição não será adicionada, caso em que você estaria executando sem o recurso de failover até que o problema que está causando a não inclusão do servidor seja resolvido.
I'm being told that the only way to ensure success is to have at least a day of down time where we bring up a new cluster on the new hardware and then migrate the databases 1 by 1.
Essa é provavelmente a única maneira de garantir o sucesso do cara que está fazendo o trabalho. Eu faria a pergunta inocente de "se é preciso um dia de tempo de inatividade para mover um cluster, por que eu iria me agrupar em primeiro lugar? Eu poderia comprar 2 máquinas e deixar 1 e pronto para ir para esse tipo de disponibilidade". Em resumo, você precisa encontrar alguém que realmente trabalhe com clusters antes e entenda a tecnologia envolvida. Presumindo que não existam problemas únicos (por exemplo, a sua empresa escreveu algum software em cluster quase que em execução no cluster) eu acho que a maioria dos administradores profissionais da Microsoft ficaria constrangida em dizer que levaria um dia de inatividade para substituir / adicionar hardware a um cluster existente em funcionamento