Manutenção de produção permitida durante o horário comercial [fechado]

3

Recentemente, cheguei a gerenciar uma pequena startup. Como a maioria das pequenas startups, eu pensaria, temos feito o que queríamos na produção virtualmente quando pensávamos que estava tudo bem. As pessoas são cuidadosas e as coisas funcionaram muito bem. Também conseguimos resolver as coisas muito rapidamente, pelo que os clientes são muito gratos.

No entanto, ontem tivemos um problema em que um administrador, por conta própria, decidiu alterar um nome de servidor e atualizar o software para ficar mais alinhado com as coisas. Os devs foram notificados, no entanto, a mudança de nome matou o nosso sistema de fila de mensagens, que por sua vez, basicamente, nos desligou por horas. A partir disso, houve uma série de falhas em cascata e a VM que hospeda a fila de mensagens precisou ser eliminada e uma nova VM foi criada. Ninguém ficou satisfeito.

Isso deveria ter sido verificado em um ambiente de não produção primeiro.

Eu queria saber qual manutenção é permitida na produção durante os períodos críticos de negócios? Alguns imagino o quanto?

    
por Telavian 22.01.2016 / 16:53

2 respostas

4

A manutenção pode ser feita a qualquer momento, desde que não cause impacto nos sistemas de negócios.

No seu caso de problemas que causaram uma falha crítica, o problema não era que isso não pudesse ser feito, é que você não tem notificação do processo de mudança ou o administrador não o seguiu. O fato de haver uma mudança de nome não foi comunicado às pessoas responsáveis pelo tempo de atividade do serviço. Se o administrador é o proprietário do serviço (e em uma pequena empresa isso é muito provável), então sua adequação para essa função precisa ser examinada, já que é seu trabalho determinar o impacto de qualquer mudança que afete seu serviço.

Os ambientes de teste são bons, mas, a menos que sejam rigorosamente mantidos, não serão comprovados todos os problemas. Embora certamente testar as mudanças no teste seja uma boa prática, não é um substituto para um plano de devolução (que também deve ser testado).

Por fim, outra lição a ser aprendida aqui é que os desenvolvedores não são administradores. Eu suspeito que, como você disse, "devs foram notificados". Eu aposto que um níquel não foi perguntado "o que acontece se o nome da máquina mudar?". Eu teria pelo menos um e-mail na mão de desenvolvedores afirmando que a mudança do nome da máquina não teria relação com o aplicativo.

    
por 22.01.2016 / 17:21
2

Você aprende com o erro e toma medidas para analisar o impacto das mudanças no ambiente antes de produzi-las.

A documentação percorre um longo caminho até aqui, mas também tenta avaliar por que esse tipo de mudança teria um impacto tão abrangente. Havia coisas codificadas em aplicativos? Há espaço para melhorias no funcionamento do sistema?

Uma alteração de nome de host não é uma coisa pequena, mas também não é algo que deva ser completamente quebrado.

    
por 22.01.2016 / 17:03