Taxas de falhas relativas para componentes de hardware

4

Digamos que estou configurando um único servidor de máquina. Sem conhecer os componentes específicos (e poder pesquisar os MTBFs), quais são as taxas de falhas relativas típicas dos componentes de hardware no servidor?

Equivalente, quais são os rankings dos componentes mais frequentemente substituídos em todos os servidores de uso corporativo?

    
por Jim Hunziker 04.05.2009 / 03:05

8 respostas

7

Sobre os discos rígidos, muitas pessoas entendem mal o MTBF e pensam que uma unidade com um MTBF de 100.000 horas durará, em média, 11,5 anos. O que o fabricante quer dizer é que, em uma coleção de um grande número de unidades, N, tudo dentro de sua vida útil, essa unidade será arquivada a cada 100.000 / N horas. Se você tem 100.000 unidades, cada uma com um MTBF de 100.000 horas, então você deve esperar que uma unidade falhe - em média - a cada hora.

Os discos rígidos falham com mais frequência do que as pessoas esperam. Faça backup, faça backup, faça backup.

Qualquer coisa com partes móveis pode falhar, incluindo unidades de fita, unidades de disquete, ventiladores e assim por diante. Eu tive o fã em placas gráficas morrer, causando a morte da placa gráfica. Eu tive o ventilador da fonte de alimentação morrer, fazendo com que a maioria das partes do computador morresse. (Desde então, nunca construí um sistema sem ventiladores extras.) Os drives de fita requerem cuidado extra, ou suas vidas serão significativamente reduzidas. Isso ocorre porque ele não apenas se move, como também o cabeçote de fita faz contato físico com a mídia de fita - pelo menos em muitos tipos de unidades de fita. Limpar a unidade com muita frequência com mídia comum de limpeza de fita desgastará as cabeças de fita.

Os ventiladores embutidos do chipset morrem, mas até agora sem nenhum efeito. Até agora eu nunca tive um ventilador de CPU morrendo, mas eu costumo fazer uma atualização com freqüência suficiente para que eu provavelmente evite isso através de atualizações. (sorriso)

Eu substituo meus drives de disco a cada vários anos (principalmente porque a capacidade disponível aumenta tão rapidamente), por isso experimentei relativamente poucas falhas no disco rígido. Eu tive muitas fontes de energia falharem - muito mais do que eu teria esperado ingenuamente para um componente sem partes móveis além do ventilador. Presumo que as irregularidades de energia são a causa de muitas falhas na fonte de alimentação.

Até agora, em algumas décadas de computação, nunca tive uma CPU ou RAM ou placa-mãe a menos que houvesse uma causa razoável, como superaquecimento (fãs morrendo). No entanto, algumas marcas de placas-mãe ao longo dos anos tiveram tempos de vida muito mais curtos do que o esperado devido a peças abaixo do padrão, geralmente capacitores fabricados incorretamente onde a energia entra na placa-mãe.

Qualquer lugar em que você tenha uma conexão conectada é um ponto de falha. Eu tive computadores falham (principalmente há muito tempo) devido a conectores baratos banhados de estanho. O estanho oxidou e ao longo do tempo a conexão, porque cada vez menos confiável. Eventualmente eu desliguei tudo, peguei uma borracha nos conectores de lata para remover a oxidação, conectei tudo de volta, e fiquei acordado por mais algum tempo. Conectores de ouro são o conector escolhido por um motivo.

Pelo que vi em um ambiente corporativo, com minha casa experiente misturada, os componentes parecem falhar nessa ordem, da maioria para a menor frequência.

  1. Discos rígidos e unidades de fita
  2. Fontes de alimentação
  3. fãs
  4. distante, tudo mais

Não mencionado acima, mas você deve esperar que todos os cartões / cartões de memória flash eventualmente morram, dependendo da freqüência de uso. Mas vai demorar muito tempo, dado o uso médio da maioria desses cartões. A memória flash "se desgasta" com o uso e as células de memória acabarão por falhar.

    
por 04.05.2009 / 05:26
3

Anecdotalmente baterias .

Não tenho dados concretos, mas substituí mais baterias com falha ou com desempenho insuficiente em minha vida do que qualquer outro componente. Isso inclui fontes de alimentação ininterruptas, laptops / notebooks, baterias de controle, baterias de celular e, provavelmente, muitos outros.

Isso me levou a sempre armazenar uma bateria extra para a UPS de uma sala de servidores.

    
por 04.05.2009 / 05:44
3

Qualquer coisa que se mova, que em um servidor é basicamente discos rígidos e ventiladores, falhará com muito mais frequência do que componentes de estado sólido. As fontes de alimentação são um segundo distante, mas notável. Todo o resto (cpu, memória, etc) é bastante confiável ... o que não quer dizer imune ao fracasso, mas definitivamente deve estar preocupado se você tiver suas bases de disco / ventilador / psu cobertas.

    
por 04.05.2009 / 03:23
2
  1. Discos rígidos
  2. Todo o resto

É melhor manter peças sobressalentes de tudo no local, a menos que você esteja bem com qualquer tempo de inatividade que seu fornecedor de hardware decidir dar a você.

    
por 04.05.2009 / 03:09
2

Apenas pesquisando isso para minha empresa hoje, encontrei um resumo de um dos whitepapers da microsoft em extremetech.com com este gráfico para um período de 8 meses:

AcolunaclassificadafoiumareferênciadecenteparameuscálculosdovalordasgarantiasdehardwaredaDell(nomomento,vamosinvestiremhardwareextra).

Owhitepapercompletoestáaqui: link

    
por 19.10.2012 / 20:16
0

Você verá mais problemas com o firmware e os drivers do hardware do que as falhas físicas (pelo menos no início da vida útil do dispositivo), portanto, certifique-se de que elas estejam atualizadas e sejam testadas primeiro.

Os drives SATA normalmente serão os primeiros a serem enviados. O SAS tende a ser mais confiável. (Embora eu tenha ouvido coisas boas sobre as mais recentes unidades SATA 2)

    
por 04.05.2009 / 03:36
0
  1. Discos rígidos
  2. Fontes de alimentação (muito comuns)
  3. Coisas que você conecta e desconecta (mais comum para desktops do que para servidores)
  4. Todo o resto, especialmente depois que a fonte de alimentação morre e leva as coisas com ela ...

Era uma vez, os fãs da CPU também costumavam estar na lista; Ultimamente, não me lembro da última vez que vi uma parada funcionando, mas é uma possibilidade, especialmente em um ambiente empoeirado.

    
por 04.05.2009 / 04:02
0

O Google publicou um documento, "Tendências de falha em uma população de grandes unidades de disco" , sobre estatísticas de falhas para um amplo conjunto de unidades. O principal é que os discos falham acima e além do que o MTBF sugere. Os discos são facilmente mais propensos a falhas na sala do servidor.

    
por 04.05.2009 / 04:29

Tags