O Ceph foi projetado para permanecer altamente disponível, apesar das falhas individuais de discos rígidos, nós ou racks inteiros quando um cluster é projetado corretamente. Este é o principal motivo para a estratégia de 3 réplicas nos dados (o RAID não é obrigatório nem recomendado).
Você não precisa substituir um disco rígido antes que ele falhe, o procedimento de substituição padrão seria trocar todo o hardware com falha em um dia agendado do mês como parte de sua rotina operacional. É claro que você precisa ter espaço livre suficiente no cluster para acomodar sua taxa de falhas de hardware nominal, mas é necessário ter espaço livre por outras razões em qualquer sistema de armazenamento corporativo, portanto, é preciso dizer.
Quando a unidade falhar, o Ceph criará novas cópias dos dados que foram armazenados no OSD correspondente em outro local do cluster e restaurará o nível de resiliência desses dados para três réplicas. Esses dados são "degradados" para duas réplicas até que isso seja concluído, mas permanecem altamente disponíveis, pois você ainda tem pelo menos duas cópias dele na parte saudável do cluster.