Falha na linha de comunicação ... reinicialização para idiotas?

7

Eu trabalho em uma grande corporação, onde usamos muitos sistemas legados. Observar alguns dos sistemas: HP-UX 10.20, Windows 2000, sistemas VMEBus, sistemas projetados há mais de 30 anos que não se comunicam por protocolos TCP / IP e muito mais.

Durante a semana de trabalho, somos constantemente atormentados por esses sistemas legados que perdem a comunicação uns com os outros. Geralmente, reinicializar um sistema para tentar restaurar a comunicação é a última abordagem. Tornou-se uma crença comum que a reinicialização de um sistema é apenas um “conserto” para colegas de trabalho ignorantes. Eu queria saber, se existe alguma validade para reiniciar um sistema (legado ou não) para restaurar uma linha de comunicação com falha?

Eu percebo que a renovação de endereços IP no Windows deve efetivamente restaurar a comunicação da rede; mas existe a possibilidade de um problema mais profundo no sistema operacional subjacente que pode se corromper e precisar de uma reinicialização? Um soquete com falha que expira, não fecha ou talvez não tente se reconectar?

Parece-me que a reinicialização seria uma solução viável ao ter uma rede tão complexa de sistemas de incompatibilidade. Mas (pelo menos no meu local de trabalho) quando um sistema é reinicializado e tudo magicamente começa a funcionar novamente, é sempre uma “coincidência”; nunca uma solução. Pensamentos?

    
por Cimplicity 31.05.2009 / 09:03

5 respostas

2

A resposta é "depende".

A reinicialização pode corrigir problemas ou facilitar a detecção de problemas, fornecendo melhores registros ou problemas facilmente observáveis. (Hmmm ... reiniciar não deve demorar 10 minutos)

Recorrer a reinicializações como uma técnica de solução de problemas padrão é uma prática ruim, no entanto. Alguém precisa entender como as coisas estão desconectadas para que você possa fazer uma triagem, isolar os componentes com falha e começar a solucionar o problema.

Eu odeio dizer isso, mas pode ser útil olhar para algo como ITIL, particularmente o gerenciamento de incidentes e problemas. Pode ajudar você ou sua administração a reorganizar seu sistema de suporte para funcionar de maneira racional.

    
por 05.06.2009 / 02:03
6

Sim, "reinicie e me chame se ainda não funcionar" é geralmente a primeira linha de solução de problemas para administradores de sistema ou funcionários de helpdesk que não têm ideias. Também vou usar isso também, mas dizer a alguém para reiniciar um servidor é um exercício completamente diferente do que fazer com que um usuário reinicie sua estação de trabalho, dependendo, é claro, do servidor usado.

Eu odeio dar este conselho, mas falando pragmaticamente, às vezes por verdadeiros sistemas legados que você não tem a liberdade de substituir, se a reinicialização resolver o problema, é melhor fazê-lo conforme necessário e trabalhar para justificar um atualizar do que estender o tempo de inatividade desnecessariamente.

    
por 31.05.2009 / 09:29
4

Meus pensamentos sobre tentar educar as pessoas é tomar o caminho menos intrusivo primeiro.

Como você disse, a reinicialização deve ser a opção ÚLTIMA.

Então, pelo menos introvertido seria mais como   - Reiniciar o serviço de comunicações   - Reiniciando o serviço de aplicativo   - Reiniciando a camada de comunicações da aplicação (se existir)   - Etc

Isso se aplica a mais do que apenas sistemas antigos e se aplica a qualquer solução de problemas. Um dia, um desses sistemas não voltará.

Ao percorrer as diferentes partes de um sistema, isso também permite que você encontre o que realmente está causando a falha e também tenha uma correção mais rápida, já que uma reinicialização inteira não é feita.

    
por 31.05.2009 / 09:16
3

Com os clusters de failover (uso o RedHat Cluster), a reinicialização é uma boa coisa por alguns motivos:

  • Faz parte do protocolo de alta disponibilidade como "STONITH" (Disparar O Outro Nó na Cabeça), em que um host que não responde é forçado a ser desconectado / reinicializado. É melhor você se certificar de que está configurado corretamente e que ele será reinicializado em ordem. Quando algo dá errado, você pode se encontrar reinicializando as máquinas várias vezes, a menos que o problema seja óbvio.

  • O sistema é otimizado em torno de ter um nó descendo, mas não é muito bom - na verdade, é uma droga - imaginar que um nó está apenas se comportando mal. Ter um serviço realocado para outro nó leva alguns segundos. Se o nó atual está se comportando mal, puxar o plugue é a forma mais segura e rápida de fazer isso, caso contrário, o cluster pode estar tentando fazer as coisas muito bem, e esperar por um ACK que nunca virá.

por 31.05.2009 / 14:54
2

Como sua pergunta abrange vários sistemas operacionais, não pode haver uma única resposta correta.

Eu posso dizer isso para sistemas Windows 2000: eu executei milhares deles e só consigo lembrar de alguns casos em que a comunicação falhou E o sistema não estava completamente travado. Muitas vezes, uma simples desativação / reativação da NIC incomunicável resolveria isso, seguido por uma atualização de driver e / ou substituição da NIC por algo menos brega.

(IOW, eu só vi isso com drivers de buggy antigos e / ou NICs de marca externa.)

    
por 05.06.2009 / 01:40