it-swarm-es.com

¿Busca una experiencia real de la falla de la unidad RAID 5 2?

Me pregunto si alguien tiene alguna experiencia personal de RAID 5 2 ¿Fallo de la unidad con unidades grandes?

Como lo entiendo, la teoría es que con unidades grandes de 1-2TB, si una unidad falla en el conjunto RAID, debe reconstruir todo, así que, por lo tanto, está golpeando todas las otras unidades muy duras, y la posibilidad de que otro fracaso sube, Especialmente si las unidades eran del mismo lote de fabricación. Y si pierde otro disco, pierde todos los datos.

Esto generalmente se explica después de que la declaración "RAID no está respaldada" con la que estoy de acuerdo.

La teoría de esto tiene sentido, y lo entiendo, pero ¿realmente sucede?

15
Brian

Sí, me lo he hecho. Un conjunto de 4 (grado de consumo) WD 500 unidades se puso mal en el transcurso de aproximadamente una semana. Fui lento para reemplazar el primero, y no tomé la matriz fuera de línea, y perdí todos mis datos cuando el segundo falló. Reutilizé los dos buenos restantes, y uno de ellos falló en el próximo mes. Todos estaban debidamente enfriados y atendidos. Solo puedo decir que ahora creo en la retórica "Bad Batch".

En un incidente separado, tuve 3 unidades separadas de diferentes marcas y modelos fallaron dentro de un mes entre sí, aunque estoy bastante seguro de que la razón por la que fallaron se debió a una ventilación inadecuada. ¡No cocine sus unidades!

15
Paul McMillan

¿Estás preguntando si puedes perder 2 unidades hacia atrás? Claro, cualquier cosa puede pasar. RAID 5 permite una excelente disponibilidad y aumento de rendimiento para el acceso a los datos, pero RAID 5 no respalda nada. Simplemente ayuda a prevenir el uso de sus datos debido a una única pérdida de hardware de la unidad. No es una copia de sus datos. No puede recuperar una copia antigua, una antigua revisión o simplemente una copia de su trabajo actual. Además, no protege contra la corrupción de datos. Hay más cosas que podrían ir mal que simplemente perder un disco. El virus podría corromper todos sus datos, a la hermana pequeña le gusta ver la bote de basura en su escritorio se llena y vacía mientras lanza archivos en él, un amigo estúpido cae un refresco en su máquina, etc.

Además, recuerde, puede perder el controlador RAID de disco duro. Y no puede simplemente mover la matriz a otro controlador aleatorio. Usted Normaly tiene que usar exactamente uno y aún así, algo podría salir mal. Algunos controladores RAID almacenan información a bordo y otra información de configuración de envío a la matriz adjunta. Es una apuesta cuando surge esta situación.

Misma pregunta sobre en SF: https://serverfault.com/questions/2888/why-is-raid-not-a-backup

¿Necesitas más razones?

Edición: Tu idea es correcta y podría pasarle a cualquiera. PERO PERSONALIZO A NO HABÍA MÁS DE UN DURANDO FALLA, PERO HE VISTO ALGUNA MUEVO REALMENTE CERRARSE REALMENTE. Ninguno de ellos estaba en esa ventana de reconstrucción, pero es un riesgo técnico. Pero, tienes una copia de seguridad en caso de que algo suceda, ¿verdad? ja ja. Algunas personas aprenden la forma difícil de esto a veces. RAID 6 lo lleva al siguiente nivel con doble paridad y puede perder hasta 2 unidades. Con cualquier configuración de RAID, la propagación de la falla se eleva con el tamaño (# de unidades) y la complejidad de la matriz. Más unidades = más puntos de posible fallo.

3
Troggy

Tienes razón, en un escenario RAID-5 Si pierde un disco y luego se reconstruye, el sistema debe leer con éxito cada sector de todas las unidades sobrevivientes en el conjunto RAID. NetApp reclama que para algunas situaciones (pueden hacer conjuntos de redadas de hasta 28 unidades de algunos tipos), sus probabilidades de golpear una segunda falla pueden ser de hasta una de cada diez. Por lo tanto, hacen una "paridad dual" que creo que está relacionada con RAID-6.

Obviamente, cuanto más vuelos lo que tenga en un conjunto RAID, y cuanto más importantes sean, más probable es que tenga un problema. Para un pequeño conjunto de RAID (3-5 discos), las probabilidades probablemente no se han desplazado demasiado contra usando RAID-5.

Pero siempre hago RAID-DP en NetApps donde puedo.

3
David Mackintosh

He visto esto varias veces ya que estoy en el negocio de recuperación de datos. Y sí, a menudo fallan al mismo tiempo, sin embargo, no creo que esto tenga nada que ver con cuando se construyeron necesariamente, ya que también lo he visto suceder con unidades no coincidentes. La mayoría de las veces, este tipo de falla ocurre poco después de una tormenta de truenos, oleada de alimentación o interrupción de energía.

Típicamente, la oleada daña las unidades o el controlador RAID, y dentro de unos días comienzan a fallar. En realidad, estoy trabajando en este momento en recuperar una matriz que tuviera dos unidades que fallan simultáneamente después de un corte de energía. (parece desesperado en este momento)

Un poco de consejo: los protectores de sobretensión realmente no protegen su equipo. Siempre conecte su RAID 5 a un buen UPS. Nunca he visto suceder esto cuando la matriz estaba en un UPS.

1
Jared

Esto realmente sucede. Esta es la razón por la que NetApp Storage Solutions tiene una implementación de RAID 6. Esto es solo en caso de que pierda una segunda unidad durante la reconstrucción.

Puede calcular la probabilidad de una falla utilizando las fórmulas estándar que se enumeran en la página siguiente enlace Texto a medida que se escala a un número mayor y mayor de las unidades de datos, la probabilidad de tal falla. Si tiene suficientes discos, puede presionar este número a la zona de preocupación si está utilizando una RAID 5 con una gran cantidad de volúmenes de datos.

Puedo informarle de la experiencia personal que ciertamente puede tener dos fallas en la unidad en la misma matriz dentro del mismo período de tiempo crítico. RAID 6 me salvó de tener que restaurar desde la copia de seguridad.

Espero que esto ayude

1
Axxmasterr

Al extraer accidentalmente un segundo buen viaje fuera de un conjunto de una sola paridad, no debe destruir la matriz con una buena implementación de RAID. Sé que ZFS RAID-Z solo congelará cualquier E/S en la matriz hasta que vuelva a estar en línea.

1
Sfynx

Otro escenario: se le ordena un Minion remoto para salir de la cinta de copia de seguridad del tapedrive. Ella va al estante y no saca la cinta del tapedrive ... pero 2 (dos) HDD están fuera de los driveBays al mismo tiempo y Voila: 2 Fallo de la unidad.

¿Crees que esto está lejos? Bueno, ahora estoy en un cliente que hizo eso y ahora está mirando a un servidor reconstruido.

Buena Thinng, ella no quemó la cinta que en realidad estaba en el tapedrive o Whatnot ;-)

0
Mathias