Não é possível dizer com precisão quais são as chances de os X drives saírem em quantidade de tempo Y, mas é seguro dizer que as falhas do drive não são completamente independentes, como comumente assumido. Múltiplas falhas de disco no mesmo array dentro da proximidade temporal são, na verdade, uma ocorrência bastante comum.
Há menos de um mês, tivemos 4 unidades com falha no mesmo fim de semana em um dos nossos servidores de produção (mesmo conjunto de RAID), um após o outro. Quase assim que substituímos uma unidade, outra falhou ... acabamos por substituir todas as 7 unidades por segurança.
Um motivo, como você mencionou, é que o processo de reconstrução é intensivo em disco, portanto, há uma chance não trivial de que um disco oscilando à beira de ficar ruim seja empurrado para a borda e falhe, como resultado de o aumento do estresse sob o fornecimento de dados para reconstruir o novo disco.
Outro fator a ser considerado é que todos os membros em uma matriz RAID tendem a estar no mesmo ambiente físico e sujeitos a estresses físicos muito semelhantes (calor, vibração, flutuações de energia, etc.), o que tende a resultar em um maior incidência de tempos de falha semelhantes aos dos discos em diferentes ambientes.
E, se você for como a maioria das pessoas, provavelmente comprou apenas 4 discos idênticos do mesmo local e acabou com 4 discos do mesmo lote, resultando nos 4 discos que compartilham características de fabricação idênticas (quaisquer defeitos ou anomalias durante esse lote de fabricação provavelmente são compartilhados em todos os quatro discos). Tão idênticos discos em um ambiente idêntico ... faz sentido que eles possam compartilhar outras características semelhantes, como quando eles falham.
Finalmente, há o fato de que as falhas de disco não são normalmente distribuídas (como em uma curva de sino). Eles tendem a ter maiores taxas de insucesso no início de suas vidas (mortalidade infantil), e depois de um longo período de tempo, quando se desgastam e morrem devido aos estresses físicos a que foram submetidos, com uma taxa relativamente baixa de falha int no meio (a curva da banheira).
Então, sim, várias falhas de unidade na mesma matriz RAID acontecem com certa regularidade e é uma das razões pelas quais você sempre deseja ter bons backups.