Que testes você executa antes de implantar o hardware do mercado cinza?

3

Somos uma pequena loja de um ponto de vista de TI e compramos quase todo o nosso hardware de servidor e rede de suprimentos do mercado cinza - normalmente via eBay. Estou interessado em desenvolver um processo de teste mais rigoroso antes de implantar esse hardware de mercado cinza na produção. Quais testes de estresse de hardware, suítes de teste, etc. são recomendados para esse cenário?

Nota: Para esta questão, não estou interessado em debater os méritos da compra de hardware novo ou hardware de mercado cinza. Considerando nosso tamanho e orçamento, acreditamos que a compra do mercado cinza - seja ela usada ou novo hardware - nos dá o melhor retorno para o nosso investimento. Obrigado.

Configurações típicas do servidor

  • Servidores: Blades IBM x335, x345 e HS20
  • HDDs: SCSI em execução nas configurações RAID1 ou RAID5
  • SO: Ubuntu Server 8.04LTS ou 9.10

Pergunta de falha de servidor potencialmente relacionada

por Matthew Rankin 21.12.2009 / 14:50

6 respostas

4

Compramos uma quantidade razoável de equipamentos IBM de segunda mão junto com o material novo em $ JOB. São todos os blades HS / LS agora, mas já tivemos muitas caixas de pizza x3 ** no passado. Como tenho certeza de que você está ciente, há algumas coisas boas a serem tiradas do contrato de leasing e atualizações de hardware de outras pessoas. Freqüentemente, mesmo com algum tempo sob garantia do fabricante.

Normalmente, todos os problemas que surgiram surgem rapidamente e se tornam aparentes nos logs de eventos do BladeCenter ou do BIOS. Eles geralmente podem ser retirados apenas pela operação da máquina por um curto período de tempo e pela reinicialização.

Não é tão comum ver o equipamento S / H preenchido com drives. Sempre que fazemos, eles são jogados fora. A mídia giratória é quase sempre o elo mais fraco da cadeia de hardware. Você não tem idéia se as unidades exibiram problemas anteriormente ou foram descartadas em trânsito. As unidades são tão baratas para comprar novas que simplesmente não valem a pena.

Quanto à questão técnica de qual ferramenta usar. Como você parece estar lidando apenas com máquinas IBM, é melhor usar a ferramenta de diagnósticos útil e abrangente que a IBM já lançou. Apenas aperte F2 na inicialização.

    
por 21.12.2009 / 15:33
4

Acho que depende de quais são os seus requisitos de tempo de funcionamento e de que nível de "mercado cinza" você está lidando.

Se os seus requisitos de tempo de funcionamento são altos, então você quer contar com a redundância de infraestrutura, para que a perda de uma única máquina não signifique a perda de serviços para seus clientes. Compre em dobro, crie a redundância e monitore seus hosts e sua rede para saber quando você precisa substituir alguma coisa.

Se seus requisitos de tempo de funcionamento não são tão altos, mas você só precisa de hardware de trabalho, avalie as pessoas de quem você compra. Não compre coisas que não sejam garantidas sem DOA. Se você puder, compre em lojas de varejo com garantias de pelo menos 90 dias, embora um ano seria ótimo se você pudesse pagar, e certifique-se de que você pode obter peças de reposição para o que você está comprando de outra fonte se o original se fecha .

    
por 21.12.2009 / 14:55
1

memtestp e iozone são meus dois favoritos.

    
por 21.12.2009 / 14:54
0

Outro pensamento é tentar padronizar seus sistemas. Tente comprar o mesmo HW que pode ser usado como peças de reposição, se necessário. O teste real dependerá do tempo disponível. Eu tentaria criar meu próprio conjunto de testes automatizado (e repetitivo) que enfatizaria todos os principais componentes. CPU, memória, E / S de disco, E / S de rede é o que eu tentaria enfatizar em um teste que deve ser executado algumas vezes e usado para definir uma linha de base. Todos os sistemas que tiveram desempenho abaixo da linha de base (10 ou 20% abaixo) devem ser reexaminados antes de serem implantados na produção.

    
por 21.12.2009 / 15:32
0

Eu normalmente inicializo o sistema sendo testado usando uma mídia externa, por exemplo, flash USB ou inicialização PXE de rede em um ramdisk. Isso me permite testar as unidades de maneira destrutiva e desenvolver um bom ambiente de teste multiuso.

Para o teste de acionamento, uso o teste destrutivo de 4 passagens por badblocks no dispositivo bruto, por exemplo

badblocks -vw /dev/sda 

NOTA: isso apagará todos os dados da unidade! Se você tiver várias unidades, pode ainda enfatizar o sistema para testá-las em paralelo.

A compilação do kernel Linux é considerada um bom teste geral do sistema. Eu corro um ciclo de compilação por núcleo da CPU. Configure uma árvore de origem do kernel padrão e copie-a para cada instância. Então, em cada instância, faça algo como:

while (1); do make clean && make bzImage; done

Enquanto a compilação do kernel está acontecendo, você pode querer observar a temperatura da CPU com sensores, por exemplo:

while (true) do sensors | grep Temp; sleep 5; done

Execute isso por 24 horas e você deve ter um sistema confiável no final.

    
por 24.12.2009 / 23:19
0

Eu gosto de usar o memtest86 para testar o subsistema de memória. Isso permitirá que você saiba se há algum módulo de memória com problemas em seu sistema.

Para testes de CPU, gosto de executar o cliente Distributed.net RC5-72; isso carregará suas CPUs para 100% de chaves RSA de 72 bits. Se houver um problema com as CPUs ou componentes relacionados, eu acho que isso os encontraria. Eu deixei correr o máximo que pude - além de enfatizar os meus CPUs, ele também aumenta minhas estatísticas DNETC :) Provavelmente, para testes de estresse de um sistema, eu o executaria pelo menos 24 horas.

badblocks, como mencionado acima, é uma boa maneira de enfatizar as unidades de disco de teste, caso deseje mantê-las (uma discussão à parte). Uma alternativa ao teste destrutivo de leitura / gravação mencionado pelo VMBed é o teste de leitura / gravação não destrutivo, que deixará os dados intactos.

    
por 28.04.2011 / 20:17