Práticas recomendadas para reinicialização do servidor live do Windows Server 2003

2

Temos uma caixa do Windows Server 2003 em execução como um servidor da Web em um data center remoto. Ontem à noite, instalei um grande lote de atualizações do Windows e, em seguida, iniciei uma reinicialização por volta de 1:30 da manhã por meio do RDP. A reinicialização falhou e, embora o servidor ainda esteja em execução, estamos bloqueados via RDP. Cue pânico e desordem!

Eu não direcionei os aplicativos para outra máquina (o que só é parcialmente possível com o equipamento que temos atualmente) porque o tempo de inatividade de algumas horas no meio da noite é aceitável para nossos clientes.

Por enquanto, eu estou em contato com a equipe do data center para reiniciar a máquina por outros meios, hoje à noite, mas obviamente eu quero evitar isso no futuro.

Minhas perguntas:

  • Como posso evitar perdas de serviço como essas? Note que somos uma empresa muito pequena, com carga leve em nosso servidor, por isso, embora eu esteja interessado em práticas recomendadas que envolvam a compra de muito hardware extra, eu preferiria ouvir sobre coisas mais baratas que podem ser feitas.
  • Ter o RDP como o único meio de executar determinadas tarefas importantes (ou seja, modificar o banco de dados para resolver problemas de atendimento ao cliente) é uma responsabilidade?

Detalhes da máquina:

  • Windows Server 2003, não sabe qual service pack
  • Executando dois sites no ASP.NET 3.5 e outros quatro no ASP classic
  • back-end do SQL Server 2005 para todos os sites
  • Usa uma solução de backup contínuo para uma máquina configurada de maneira idêntica, pronta para ser conectada e ativada
  • Execução de uma instância do VMware que contém um ambiente de preparação e não é de missão crítica
  • Uma partição do disco rígido com espelhamento
  • 4 GB de RAM
  • Core 2 Duo ~ 2Ghz

Obrigado antecipadamente. Mais informações a pedido.

UPDATE :

Algumas excelentes respostas aqui até agora.

Para gerenciamento remoto, vários sugeriram o uso de KVM e gerenciamento remoto de energia sobre IP, ou hardware, como o iLO da HP ou o DRAC da Dell. Nós temos servidores HP, então vou olhar para o iLO. Irritantemente, nosso centro de hospedagem tem KVM sobre IP para todas as suas máquinas, mas não permite acesso aos clientes, pois não está configurado de maneira segura. Ao selecionar futuros serviços de hospedagem, assegurarei que esse não seja o caso.

Para prevenção, mh sugeriu interromper serviços e encerrar sessões que podem estar impedindo a reinicialização. Em nosso caso, isso provavelmente teria identificado o problema e evitado o problema. Parece que a instância do VMware que está executando nosso ambiente de preparação não foi encerrada e que parou a reinicialização do servidor principal.

John Gardeniers sugeriu a execução de reinicializações manualmente após a instalação das atualizações, e não permitiu que o Windows Update realizasse a reinicialização. Eu farei isso no futuro.

Obrigado a todos.

    
por Alex 03.07.2009 / 12:17

9 respostas

4

Existem várias opções para acessar o console remotamente sem depender do RDP em uma instalação do Windows em funcionamento:

  1. Lights Out Management - alguns servidores da Sun, HP, IBM e vários outros possuem um LOM (Lights Out Management Chip). Tenho muito da minha experiência com a tecnologia iLO da HP que me salvou várias viagens . Essencialmente, esse chip oferece acesso remoto autenticado aos controles na parte frontal do servidor e, na maioria das vezes, muito mais. A desvantagem é que, se o servidor não tiver, você não poderá usá-lo.

  2. IP KVM ou Gerenciamento remoto de energia - vários fornecedores fornecem produtos que permitem acessar o teclado, o vídeo e o mouse remotamente ( IP KVM ) ou menos dispendiosamente a capacidade de gerenciar a energia remotamente, desligando e ligando novamente a energia da rede elétrica através de um PDU . A última opção não é recomendada, a menos que você tenha certeza de que apenas ligar e desligar o servidor ajudará.

A opção final seria não instalar atualizações durante a noite e programar interrupções curtas durante o dia, quando você ou seus "olhos e mãos" podem estar no datacenter para resolver qualquer problema. Isso é um capricho de seu cliente, embora um tempo de inatividade seja uma coisa boa para incluir em seus contratos.

    
por 03.07.2009 / 12:30
1

Se o seu servidor for Dell ou HP, você poderá fazer redefinições rígidas remotas usando o controlador BMC (Dell) ou ILO (HP). Tanto a Dell quanto a HP têm uma opção mais cara que oferece a você um teclado e uma tela remotos. Com a Dell, você instala um cartão DRAC e, com os HPs, acho que basta instalar uma chave de licença para ativar a funcionalidade extra.

Se o servidor não for da Dell ou da HP, você está preso. Alguns outros servidores têm controladores remotos similares, mas muitos não. Os servidores ocasionalmente entregam ao reiniciar, geralmente sem motivo algum que eu possa ver. A única outra opção é usar o servidor apenas para executar VMs, verificar se ele não vê a Internet e nunca atualizá-lo (ou apenas sob condições controladas). Se uma VM não for reiniciada corretamente, é fácil reiniciá-la do host.

JR

    
por 03.07.2009 / 12:25
1

Essa reinicialização, foi uma parte da aplicação dos patches? Eu tive várias ocasiões em que permitir que o processo de atualização executasse a reinicialização fez com que a máquina acabasse não sendo totalmente desligada, exatamente como você descreveu. Na maioria dos casos, tudo o que era necessário era uma tecla pressionada ou o movimento do mouse, embora não houvesse nenhum aviso na tela. Infelizmente, isso sempre acontecia quando eu estava fora do escritório. Atualmente, eu uso um script para instalar as atualizações, mas não permitir uma reinicialização no final. A reinicialização é executada separadamente. Eu não tive mais problemas desde então.

    
por 03.07.2009 / 12:56
1

Já tive o mesmo problema em nosso data center, felizmente eu tinha um cartão iLO em meus servidores HP e um DRAC na caixa Dell, mas uma das caixas em que ele aconteceu não tinha nenhum gerenciamento remoto. a única coisa que eu podia fazer era telefonar para o data center e perguntar se um de seus funcionários poderia desligar e ligar para mim.

    
por 03.07.2009 / 13:24
1

Para reinicializações do servidor, a primeira coisa que sempre faço é garantir que estou presente durante o processo de reinicialização. Se eu não posso estar fisicamente presente, pelo menos eu gosto de ser capaz de fazer ping para que eu possa observá-lo indo para baixo e voltando para cima.

Antes de reiniciar, paro os serviços. O máximo possível, garantindo que apenas a lista mais básica de serviços esteja funcionando no momento em que ele for desativado. Isso inclui qualquer site, e-mail, antivírus, agentes de segurança, qualquer coisa assim. A maioria dos casos de "travar enquanto está indo para baixo" que vi pode ser diretamente atribuída a um serviço que fica preso no estado de "parada" durante a reinicialização, e isso evita isso. Essa é a única coisa mais útil a ser feita e, infelizmente, não há uma lista definitiva de serviços para parar; experiência e seu próprio conhecimento do que está no servidor são necessários aqui.

Então eu verificarei qualquer outra sessão RDP que ainda possa estar por perto. Uma sessão desconectada, mas não desconectada, ainda pode ter um perfil de usuário carregado. Verifique também se há outras conexões ao servidor que possam estar ativas.

Então eu reinicio, e durante a reinicialização eu vou disparar um prompt de comando e ping-lo. Eu normalmente não preciso ver o que está na tela neste estágio, embora possa ser útil se você tiver os pré-requisitos necessários.

Ocasionalmente, se um servidor trava durante a reinicialização, eu posso acessá-lo via Gerenciamento do Computador e - como eu disse acima - encontrar um serviço preso no estado "Parando". Um utilitário "kill" remoto pode ser útil aqui.

    
por 03.07.2009 / 14:54
1

Na maioria das vezes, nós reinicializamos assim que os patches são aplicados. Empurrar patches e esperar por um momento mais oportuno para reiniciar só causou problemas. Todos os outros forneceram métodos excelentes e experimentados e verdadeiros para reinicializar uma caixa rebelde. ILOs e DRACs são ótimos, usar a ferramenta de desligamento do PSTools também é uma boa ideia. Descobri que, às vezes, os métodos normais falhavam, mas usar algo como VNC ou Dameware me permitia entrar na caixa e chutá-la.

    
por 03.07.2009 / 20:59
0

Se você tivesse 2 servidores remotos (e supondo que eles são capazes de conversar um com o outro), no outro servidor você poderia executar

Shutdown /m \Server /r /c "Remote Restart" /t 30

(Para o Win2000, havia o RCMD (parte do kit de recursos) que me salvou algumas vezes, mas não acho que seja mais uma opção).

    
por 03.07.2009 / 13:14
0

Uma coisa não mencionada, mas que foi útil para mim em pelo menos dois casos, lembro-me, é o WakeOnLAN - se você tiver pelo menos dois servidores na mesma LAN em seu data center.

Veja esta pergunta aqui no Serverfault.com: Ferramenta Wake on LAN para Windows

    
por 03.07.2009 / 14:38
0

Normalmente, usamos o Windows Remote Desktop para administração remota, mas também temos o Radmin ( link ) na maioria dos nossos servidores remotos. Em raras ocasiões, um sistema estará disponível via Radmin, mas não RDP. Isso pode ser um salva-vidas. Você pode tentar o VNC também. Você terá que considerar os aspectos de segurança de qualquer um deles, é claro.

    
por 03.07.2009 / 23:49