O servidor ESXi foi revertido para os padrões de instalação na reinicialização! Como isso pode acontecer?

2

Nossa loja é principalmente ESX 4.1, com a qual eu e outros estamos muito familiarizados, mas também temos alguns servidores de teste ESXi 4.1 executando a versão gratuita do ESXi, instalada originalmente usando a versão de avaliação de 60 dias, mas agora usando um chave de licença "ESXi gratuita" da nossa conta de gerenciamento da VMware.

Todos esses servidores são Dell R610 com 32 GB de RAM, CPU X5450 única e disco local de 136 GB RAID1. O ESXi é instalado no disco local, com o restante configurado como um volume VMFS. Nenhum armazenamento compartilhado está sendo usuário.

Na sexta-feira, às 18:00, todos os servidores estavam funcionando corretamente.

A partir de sábado, às 15h30, um dos servidores parecia ter sido reinstalado.

Dois desses servidores estão localizados em nosso escritório, onde a equipe administrativa do fim de semana realizou um teste de desligamento neste sábado. Este teste consistiu em lançar literalmente o disjuntor para todo o edifício. Nenhum dos servidores em questão está conectado a um no-break, embora eles tenham cache de gravação e baterias em seus controladores RAID.

Quando as máquinas foram inicializadas após o teste, uma delas perdeu a chave de licença livre (revertendo para uma licença de avaliação expirada) e a outra reverteu para as configurações de instalação iniciais (DHCP, sem senha, inventário vazio) e a licença de avaliação tinha redefinido, dando outro período de avaliação de 60 dias a partir de sábado às 15:30.

O primeiro desses servidores foi corrigido simplesmente reinserindo a chave de licença livre através do VIclient. Todos os inventários e configurações estavam no mesmo estado em que estavam na sexta-feira.

O segundo desses servidores estava exatamente no estado esperado após uma nova instalação ou reinstalação; ou seja, todas as configurações foram revertidas para os padrões e não existem arquivos de log ou de configuração com data anterior ao teste de desligamento. O login no console de serviço não suportado mostra que as mesmas pastas no diretório raiz também foram datadas após o teste de desligamento.

No entanto, o conteúdo do volume do VMFS estava intacto, como se alguém tivesse realizado uma instalação de "reparo" a partir do CD-ROM.

Este servidor foi reparado seguindo nossa lista de verificação padrão para instalações de reparo: configurando a rede, ajustando as configurações do servidor e adicionando novamente as máquinas ao inventário a partir do navegador do armazenamento de dados.

Pergunta: há algo além de uma instalação de reparo manual que reconfigura um servidor ESXi para seus padrões de instalação originais e define todas as pastas, arquivos de configuração e arquivos de log do console de serviço como data e hora que o servidor inicializou?

Sim, estou ciente de que em uma instalação sem disco, isso é praticamente o que acontece em cada inicialização; no entanto, esta não é uma instalação sem disco, mas é instalada e inicializada a partir do disco local.

No entanto, estou não familiarizado o suficiente com o ESXi para saber se isso também é normal para uma instalação no disco.

Testes: Como os dois servidores são configurados de forma idêntica, usamos o primeiro servidor para tentar descobrir o que aconteceu com o segundo.

  1. Eu fiz outro teste de desligamento desse servidor apenas, para ver se ele também reverteu aos padrões quando foi inicializado. Isso não aconteceu; ele reteve todas as configurações e inicializou normalmente, duas vezes. (Infelizmente, não verificamos se a pasta, a configuração e os arquivos de log foram redefinidos para o tempo de inicialização).

  2. Eu fiz uma instalação de reparo para verificar se as datas de configuração e arquivo de log seriam todas atualizadas até o momento da reinstalação e se todas as configurações seriam redefinidas para os padrões, como aconteceu com o segundo servidor. Aconteceu; depois de uma instalação de reparo, a primeira máquina estava exatamente no mesmo estado que a segunda, e a licença de avaliação também foi redefinida para um novo período de 60 dias.

Pergunta de acompanhamento: Supondo que isso aconteceu sem a intervenção do usuário, por que isso aconteceu e como podemos evitar que isso aconteça novamente?

Pergunta real: devo acreditar que os administradores do fim de semana disseram que não fizeram nada na máquina? Nenhum deles é certificado em nossos sistemas VMware, mas sabe o suficiente para ser perigoso se eles tiverem isso em mente para tentar resolver um problema.

Por favor, diga-me que estou errado em pensar que os administradores do fim de semana estão escondendo algo errado, e que isso pode acontecer por outras razões além da intervenção manual.

    
por ryandenki 17.10.2011 / 10:55

1 resposta

2

Ao lidar com pessoas que não sabem o que estão fazendo, é útil lembrar a Navalha de Hanlon: "Nunca atribua à malícia aquilo que é adequadamente explicado pela estupidez".

Se você configurou uma instalação autônoma baseada em PXE ou algum outro recurso de instalação automática para ESXi (por exemplo, com um CDROM ou stick USB inserido), seu ciclo de energia pode ter acionado isso por algum motivo.

    
por 17.10.2011 / 11:33