Testes de resistência do Windows Server 2k8 Box

3

Deixe-me começar explicando por que quero fazer isso. Tudo estava correndo bem. Eu importei um instantâneo de um banco de dados MySQL em outro servidor em preparação para configurar a replicação mestre-mestre (este se tornará o principal no array assim que for configurado). Eu tinha tornado a replicação de escravo do MySQL e estava se recuperando. Eu também fiz uma transferência de rsync via cygwin. Eu esqueci de algo, então eu emiti um comando STOP SLAVE para o MySQL. Isso causou o servidor inteiro literalmente travar. Nenhuma resposta no ping, nada. Após cerca de 15 minutos neste estado, a caixa foi reiniciada manualmente.

Isso levanta a questão em minha mente se eu puder confiar no servidor. STOP SLAVE não é uma chamada intensiva. Está além de mim porque isso faria com que o MySQL travasse, ainda que sozinho, todo o sistema operacional. Então agora eu estou querendo saber se é um problema de hardware. Acabamos de ter o novo Ram (32gb) instalado no servidor, mas eles nunca rodaram o memtest nele. Como não tenho acesso físico ao servidor (em outro país), eles não serão executados no memtest até a manhã de segunda-feira. Eu quero fazer o máximo de testes durante o final de semana possível.

Eu tive um problema semelhante no Linux há alguns anos, que foi causado por um bios defeituoso, onde sob altas cargas de I / O, a caixa congelava. O que eu fiz então para reproduzir foi ter alguns scripts python gerando um número de arquivos grandes (10gb +), e então aleatoriamente buscar posições diferentes entre esses arquivos. Isso fez com que a máquina parasse em poucos minutos.

Então, isso me fez pensar, por que não fazer algo semelhante? Então eu escrevi um programa python para ler e escrever em uma série de arquivos (rodando em 4 processos) para saturar os discos. Então eu escrevi um outro para tentar comer o máximo de ram possível (está em 32gb agora e subindo) enquanto aleatoriamente lendo e escrevendo para posições em sua lista. Tem sido acionado por cerca de uma hora agora, e ainda é sólido (a troca está atrasando as coisas, mas ainda é estável).

Então, eu venho aqui perguntar, existe alguma maneira de testar o estresse 2k8 que não seja realmente dependente de aplicativos? Uma vez que o MySQL se atualize, escreverei um script para consultá-lo aleatoriamente para aumentar o exercício de E / S e memória. Mas eu estou mais olhando para testar a máquina e o sistema operacional mais do que o aplicativo ... Mas até esse ponto, eu quero punir esta máquina para a parada.

Obrigado

    
por ircmaxell 13.05.2011 / 21:18

2 respostas

2

Para testar o disco rígido, execute a varredura completa da superfície do fabricante da unidade várias vezes, se desejar.

Para testar a CPU e a memória, existem alguns pacotes de software por aí. Provavelmente, os testes "burn-in" são o que você está procurando, mas a maioria dos conjuntos de benchmarking pode ser conectada para enfatizar um computador. Sou fã do pacote SiSoft Sandra , embora eu não o use há anos.

Se você estiver procurando algo um pouco mais próximo dos seus scripts em Python, tente IOZone

    
por 13.05.2011 / 21:40
0

Eu posso estar dizendo o óbvio aqui, mas você verificou os logs de eventos no servidor para ver se isso pode ajudar a identificar o que exatamente causou a falha?

Não tenho certeza se é uma superstição enganosa minha, já que não tenho o gráfico para provar isso, mas percebo que, na maioria das vezes, eu vi um problema com um servidor. Foi um erro relacionado a software / sistema operacional .

    
por 13.05.2011 / 23:10