Procedimento de falha e substituição da unidade Ceph

Question

Procedimento de falha e substituição da unidade Ceph

#1 resposta do 0xF2 (1 votos)

0

Na minha implantação do OpenStack, estou usando o Ceph para armazenamento em bloco e objeto, que está relatando um status saudável. No entanto, um dos discos rígidos está exibindo um erro SMART. Não me lembro do erro exato, mas algo para o efeito de um fracasso iminente.

Qual é o processo para substituir a unidade? Devo deixá-lo andar e deixar o Ceph cuidar dele quando ele falhar? Ou devo substituir a unidade antes que o Ceph perceba alguma coisa?

Eu suponho que é melhor substituir a unidade antes que qualquer dano seja feito, mas no caso de usar o Ceph, acredito que ela possa lidar com a falha. Eu não tenho certeza se no encanto JUJU Ceph tem alguma mágica que tornará o processo de substituição mais fácil de uma forma ou de outra.

Não vejo nenhuma degradação no desempenho.

por bc2946088 25.05.2016 / 19:44

1 resposta

MBR e GPT apontando para o mesmo SO? Não é possível instalar o pacote linux-image-3.13.0-83-generic

score 1 · Accepted Answer

O Ceph foi projetado para permanecer altamente disponível, apesar das falhas individuais de discos rígidos, nós ou racks inteiros quando um cluster é projetado corretamente. Este é o principal motivo para a estratégia de 3 réplicas nos dados (o RAID não é obrigatório nem recomendado).

Você não precisa substituir um disco rígido antes que ele falhe, o procedimento de substituição padrão seria trocar todo o hardware com falha em um dia agendado do mês como parte de sua rotina operacional. É claro que você precisa ter espaço livre suficiente no cluster para acomodar sua taxa de falhas de hardware nominal, mas é necessário ter espaço livre por outras razões em qualquer sistema de armazenamento corporativo, portanto, é preciso dizer.

Quando a unidade falhar, o Ceph criará novas cópias dos dados que foram armazenados no OSD correspondente em outro local do cluster e restaurará o nível de resiliência desses dados para três réplicas. Esses dados são "degradados" para duas réplicas até que isso seja concluído, mas permanecem altamente disponíveis, pois você ainda tem pelo menos duas cópias dele na parte saudável do cluster.