it-swarm-es.com

Tasas de fallas relativas para componentes de hardware

Digamos que estoy configurando un solo servidor de máquinas. Sin conocer los componentes específicos en ella (y poder buscar sus MTBFS), ¿cuáles son las tasas de fallas relativas típicas de los componentes de hardware en el servidor?

Equivalentemente, ¿cuáles son las clasificaciones de los componentes reemplazados con más frecuencia en todos los servidores en uso corporativo?

5
Jim Hunziker

Acerca de los discos duros, muchas personas malinterpretan el error MTBF y piensan en una unidad con A MTBF 100,000 horas durarán, en promedio, durante 11.5 años. Lo que significa el fabricante es que en una colección de un gran número de unidades, N, todas dentro de su vida, que una unidad se archiva por cada 100,000/n horas. Si tiene 100,000 unidades que cada una tiene A MTBF= De 100,000 horas, entonces debe esperar una unidad para fallar, en promedio, cada hora.

Los discos duros fallan más a menudo de lo que la gente espera. Copia de seguridad, copia de seguridad, copia de seguridad.

Cualquier cosa con partes móviles puede fallar, incluyendo unidades de cinta, unidades de disquete, ventiladores, etc. He tenido el fan en las tarjetas gráficas, causando la muerte de la tarjeta gráfica. He tenido la muerte del ventilador de la fuente de alimentación, causando que la mayoría de las partes de la computadora mueran. (Desde entonces, nunca he construido un sistema sin fanáticos adicionales). Las unidades de cinta requieren un cuidado adicional, o sus vidas se reducirán significativamente. Esto es porque no solo se mueve, sino que la cabeza de la cinta hace contacto físico con los medios de cinta, al menos en muchos tipos de unidades de cinta. Limpieza de la unidad con demasiada frecuencia con medios de limpieza de cinta ordinaria desgastarán las cabezas de cinta.

He tenido los fanáticos incorporados de los chips, pero hasta ahora sin ningún efecto. Hasta ahora, nunca he tenido un fanático de la CPU, pero tiendo a mejorar la suficiente frecuencia para que probablemente esté a través de estas actualizaciones. (sonrisa)

Reemplace mis unidades de disco cada varios años (en su mayoría porque la capacidad disponible aumenta de manera rápida), por lo que han experimentado relativamente pocas fallas de disco duro. He fallado muchas fuentes de alimentación, muchas más de lo que habría esperado ingenuamente para un componente sin partes móviles que no sean el ventilador. Supongo que las irregularidades de poder son la causa de muchas fallas de la fuente de alimentación.

Hasta ahora, en unas pocas décadas de computación, nunca he tenido una CPU o RAM o placa base, a menos que hubiera una causa razonable, como el sobrecalentamiento (fanáticos muriendo). Sin embargo, algunas marcas Las placas base a lo largo de los años han tenido tiempos de vida mucho más cortos de lo esperado debido a las partes secundarias, a menudo fabrican con condensadores incorrectamente fabricados donde la alimentación entra en la placa base.

En cualquier lugar que tenga una conexión enchufada es un punto de falla. He hecho que las computadoras fallan (hace mucho tiempo) debido a conectores chapados en hojalata baratos. La lata se oxida y con el tiempo la conexión, ya que cada vez menos confiable. Finalmente, lo desenchufó todo, tomé un borrador a los conectores de hojalata para eliminar la oxidación, enchufar todo de nuevo, y se levantó y yendo por un tiempo más tiempo. Los conectores de oro son el conector de elección por una razón.

De lo que he visto en un entorno corporativo, con mi hogar experimentado mixto, los componentes parecen fallar en este orden, de la mayoría de los menos con frecuencia.

  1. Discos duros y unidades de cinta
  2. Fuentes de alimentación
  3. fans
  4. distante todo lo demás

No se mencionó anteriormente, pero debe esperar todos Memorietas de memoria flash/tarjetas para que eventualmente mueren, dependiendo de la frecuencia de uso. Pero tardará mucho tiempo dado el uso promedio de la mayoría de las tarjetas. La memoria flash "se desgasta" con el uso y las celdas de memoria eventualmente fallarán.

7
Eddie

Cualquier cosa que se mueva, que en un servidor es básicamente unidades y ventiladores, fallará mucho más a menudo que los componentes de estado sólido. Las fuentes de alimentación son un distante, pero notable, segundo. Todo lo demás (CPU, memoria, etc.) es bastante confiable ... lo que no quiere decir inmune al fracaso, pero definitivamente debe preocuparse por después de tener las bases de disco/ventilador/psu cubiertas.

3
Kyle Cronin

Anecdóticamente, baterías.

No tengo datos duros, pero he reemplazado más baterías fallidas o subexpresables en mi vida que cualquier otro componente. Esto incluye fuentes de alimentación ininterrumpidas, computadoras portátiles/portátiles, baterías del controlador, baterías de teléfonos móviles y, probablemente, muchos otros.

Esto me ha llevado a :SIEMPRE Stock Un paquete de baterías extra para el UPS de una sala de servidores.

3
Portman
  1. Unidades de disco duro
  2. Todo lo demas

Sin embargo, lo mejor para mantener los repuestos de todo en el sitio, a menos que esté bien con el tiempo de inactividad, su proveedor de hardware decida darle.

2
womble

Verá más problemas con el firmware y los controladores para el hardware de lo que en realidad verá fallas físicas (al menos temprano en la vida útil del dispositivo), así que asegúrese de que los estén actualizados y probados primero.

Los discos SATA generalmente serán los primeros en ir. SAS tiende a ser más confiable. (Aunque he escuchado cosas buenas sobre las últimas unidades SATA 2)

0
Eric Z Beard