Estrutura de servidor tolerante a falhas para o menor dos negócios

6

Estou tentando descobrir o que fazer para uma pequena empresa que foi atormentada por problemas de hardware ridículos. No momento, esse negócio é executado em cinco ou seis computadores desktop; nenhuma infraestrutura de servidor está em vigor. Além disso, e não estou embelezando isso, eles viram quatro falhas de hardware neste ano até agora, e isso os levou à loucura.

Eu já discuti com eles a noção de colocar um Small Business Server no lugar (eles são uma microsoft shop), e eles são receptivos à ideia. Eu também planejo ficar com os pés no System Center Essentials para ficar de olho nas coisas. O foco, então, é garantir que esse servidor permaneça disponível.

Além disso, acabei de ler este outro tópico de alta disponibilidade. Muito parecido com o cara nesse segmento, eu sou muito novo em TI, vindo de um background de programação.

Algumas ideias vêm à mente:

  • Simple raid-5 com hot-swap edit: e hot-spare
  • Obtenha duas máquinas servidoras mais baratas, configure para executar um servidor virtualizado com hot-migration (já fiz algumas leituras, mas infelizmente não sei se o SBS Standard e o SCE suportarão isso)
  • Cluster de failover? Eu peguei esse termo do outro tópico, mas não fui exposto a ele no passado.

Existe uma prática recomendada quando se trata disso? O empresário está disposto a cavar um pouco nos bolsos porque está ficando aterrorizado com o tempo de inatividade, mas não tenho nenhuma experiência com isso para me levar em uma direção sobre a outra.

Eu aprecio sua sabedoria!

edit: Para fornecer alguns detalhes adicionais sobre os problemas que eles tiveram, tem sido uma mistura estranha de falhas inexplicáveis.

  • ligue o chassi não liga o sistema: placa-mãe tinha switch onboard, que forneceu uma solução stop-gap, no entanto, a saída do gabinete não resolveu o problema. Mais tarde, trocar a placa-mãe não resolveu o problema.
  • Duas máquinas idênticas sofreram falhas no drive em seus arrays raid-1, e as duas máquinas foram montadas há menos de 5 meses.
  • Problemas de falha de inicialização: um sistema no raid-1 falha ao inicializar. Infelizmente eu não anotei a mensagem de erro original, mas em minhas anotações eu tenho que "Falha ao salvar as opções de inicialização" no Windows Repair & Recuperação me levou a este tópico que apoiou as minhas suspeitas de que foi um problema relacionado a hardware.

editar: Além disso, as máquinas estão sendo executadas em uma coleção de escritórios residenciais, portanto, a eletricidade de nível residencial está em jogo. Eu acho que isso pode ser mais um fator contribuinte do que eu tinha dado crédito. No entanto, todas as máquinas são executadas em mesas (literalmente em desktops!) E não no chão; Eu não acredito que a poeira esteja envolvida.

    
por bwerks 17.08.2010 / 16:16

5 respostas

5

Em primeiro lugar, o SCE é um exagero para 5-6 computadores desktop. O WSUS é provavelmente uma opção melhor e é gratuito.

Você não falou muito sobre o que exatamente falhou. Foi uma parte na máquina? Este é um ambiente empoeirado? Meu principal ambiente de suporte é de aproximadamente 40 usuários com aproximadamente 10 servidores (não incluindo virtualizados). Compramos máquinas Dell (Optiplex) e tivemos talvez 4 falhas de hardware nos últimos 5 anos em TODAS as coisas. Então, o que você está vendo nas estações de trabalho não é normal.

Eles têm um servidor / local adequado para o servidor (com resfriamento e pouca poeira, pelo menos?)

O Raid-5 com hot swap é uma maneira barata de acessar esse servidor e fornece alguma proteção contra falhas no disco rígido. Eu também adicionaria fontes de alimentação redundantes (baratas) e um no-break.

  • Hardware da classe do servidor
  • Raid em discos rígidos (editado para adicionar) Ter um hot spare disponível é provavelmente um exagero, uma vez que a maioria dos drives na garantia podem passar a noite. Com 3 unidades em um ataque-5, por exemplo, você pode perder uma unidade e ficar bem até que a nova chegue. Perca > 1 unidade no entanto, você está ferrado, não importa como você olhe para ele.
  • fontes de alimentação redundantes
  • Garantia adequada (com a Dell, por exemplo, obtemos o próximo dia útil e mantemos seu disco rígido porque podemos viver com um dia de inatividade em qualquer um de nossos servidores.)
  • Solução de backup

Cluster de failover? Você está começando a entrar em um reino que é caro e complexo para um ambiente tão pequeno. Lembre-se que em um ambiente tão pequeno, enquanto o tempo de atividade é importante, também é importante lembrar que você vai querer manter as coisas o mais simples possível .

Quanto às estações de trabalho, resolva o problema (sobre o qual você não foi muito claro). Talvez você possa comprar uma estação de trabalho "extra" que tenha sua imagem base nela, que fica lá tirando todas as atualizações do WSUS que você poderia usar como uma máquina de swap se uma de suas estações de trabalho morrer (que é o que fazemos) . Também temos um monte de peças que podemos trocar para substituir as peças mais comuns que morrem (fontes de alimentação, memória RAM, discos rígidos) até que a peça de garantia chegue.

Backups. Nenhuma quantidade de redundância é um substituto para bons backups. Você tem várias opções aqui. Com um ambiente tão pequeno, é possível observar muitas soluções over-the-wire (Mozy, Carbonite) que cuidam de instalações externas e automatizadas ao mesmo tempo por um custo razoável. Você também pode colocar uma solução de fita e usar um serviço como o da Iron Mountain para guardar as fitas fora do local. O que quer que você faça, não leve fitas para casa com você! especialmente se elas tiverem informações valiosas sobre elas (SS #, etc.)

    
por 17.08.2010 / 16:21
2

Da minha experiência, o SBS tem seu próprio conjunto de problemas. Especialmente se você configurá-lo em cluster etc. O esforço de manutenção é muito grande para uma pequena loja.

Configure um pequeno servidor adequado, 4 discos, raid (5 | 10 | 6), controlador raid pci-e, um servidor de arquivos básico, ups (obrigado tomtom).

O correio para apenas algumas pessoas é provavelmente melhor administrado por um provedor externo.

Fique longe da SCE e de situações de exagero semelhantes, já que você teria que ter VPN, Active Directory e semelhantes. Definir tudo isso é um grande esforço, e talvez não seja do melhor interesse do seu cliente.

Ao orientar seu pequeno cliente para uma solução simples, eficiente e confiável, você se sentirá feliz.

Ensine-os a examinar os logs de eventos, talvez forneça um script simples que verifique se há avisos de disco. Visite-os regularmente, se eles quiserem, e verifique os registros para eles. Lide com os problemas um de cada vez.

    
por 17.08.2010 / 16:22
1

Este não é um problema de hardware principalmente. Obtenha um USV - AGORA. Um que está ON LINE (ou seja, filtra a elegibilidade).

On top of that, and I'm not embellishing this, they have seen four hardware failures this year to date

Isto é eihther cômico - MUITO raro - ou baseado em por exemplo flutuação de poder ou algo que o servidor não lidou com esse bem. Isso NÃO é normal, e a chance de que isso aconteça "apenas" é EXTREMAMENTE baixa. Como loteria ganhar baixo. Eu vi um comportamento similar - mas baseado em fontes de alimentação CRAP ou ... em fontes de energia instáveis com picos, parcialmente em casa (servidores vistos morrem quando você liga as luzes graças a um interruptor muito ruim onde você pode ver faíscas).

  • O SCE não é necessário. O WSUS é suficiente.
  • O SBS não suporta realmente o que você precisa no tempo de atividade - mas você pode tentar executá-lo em uma plataforma de virtualização. Ele roda no Hyper-V ... Eu conheço pessoas fazendo isso para fins de demonstração.
por 17.08.2010 / 16:27
1

Apenas algumas informações adicionais:

  • Use o RAID-6 em vez do RAID-5 + hot-spare. Com o RAID-6, a paridade é duplicada nos discos, para que você possa ter dois discos com falha ao mesmo tempo. Ou apenas use o RAID-5 e tenha backups de DR em funcionamento
  • Primeiro, concentre-se em ter redundância DENTRO da caixa do servidor (discos, fonte de alimentação, resfriamento)
  • Compre algum serviço de suporte premium para a caixa do servidor, com um SLA de tempo de resposta para falha de hardware (é muito mais barato do que uma solução de cluster)
  • Compre alguns (bons) UPS on-line
  • Implemente alguma solução de disponibilidade com base na replicação, como o DoubleTake Availability. Há uma versão do DoubleTake Availability adaptada para o Windows SBS, que é muito barata. Você precisará de 2 servidores para fazer isso, mas seu tempo de inatividade em caso de falha de hardware diminuirá para menos de 10 minutos
por 31.08.2010 / 05:54
0

Eu não entendo qual problema o servidor deve estar resolvendo.

Se todas as quatro máquinas vierem do mesmo fornecedor e não houver nada de incomum em sua localização (umidade / poeira muito alta, eletricidade estática, raios ou energia não confiável), você precisará de um novo fornecedor de hardware. Seja o que for que a Dell, a HP e a IBM fizeram para obter o lado ruim do proprietário, o fornecedor dessas máquinas é pior, pelo menos do ponto de vista do hardware. Você obteria uma confiabilidade melhor comprando as máquinas mais baratas que você pode encontrar no Wal-Mart.

Pode ser que não seja totalmente culpa do fornecedor - talvez alguém tenha especificado hardware específico e / ou insistido em equipamentos de baixa especificação - mas eles ainda deveriam ter se recusado a construir máquinas mal configuradas, ou então feito algo heróico para substitua as máquinas ruins.

Eu sugiro que você compre alguns PCs da Dell / HP / Lenovo (ou chute o traseiro do fornecedor atual para suportar o que eles venderam), inscreva-se em algumas contas pagas do Dropbox (ou box.net ou NetDocuments) para compartilhar arquivos e fazer com que seu provedor de serviços de Internet ou o Google processe o correio e a veiculação na Web.

[* Sim, os serviços "em nuvem" são teoricamente menos seguros do que possuir seu próprio servidor - mas se isso estiver sendo executado em vários escritórios domésticos, os dados estarão em risco se qualquer dessas casas for roubada ou se a família de alguém O membro usa a máquina de trabalho para executar software malicioso aleatório da Internet quando o funcionário não está em casa ou está de férias. O maior perigo de tempo de inatividade virá das conexões de rede do consumidor, e não do tempo de inatividade do provedor de nuvem.]

Parece que você precisa de menos hardware e hardware mais simples se quiser confiabilidade, hardware e software não mais complicado e mais caro.

    
por 18.08.2010 / 08:29