it-swarm-es.com

¿Cuántas SMART reasignaciones de sector indican problemas?)

Tengo un dispositivo NAS que tiene poco más de un mes. Está configurado para enviarme alertas por correo electrónico generadas a partir de los datos de los discos duros SMART. Después de un día , uno de los discos duros informó que un sector había fallado y se reasignó. Durante la primera semana, ese número subió a seis sectores en total para el disco duro en cuestión. Después de un mes, el número es de nueve sectores reasignados. La tasa definitivamente parece estar desacelerando.

El NAS está configurado con seis unidades de 1.5 TB en una configuración RAID-5. Con unidades de tan alta capacidad, esperaría que un sector fallara de vez en cuando tiempo, así que no me preocupé cuando se reubicaron los primeros sectores, aunque me molesta que ninguno de los otros discos esté reportando problemas.

¿A qué tasa de reubicaciones, o número total de reubicaciones, debería empezar a preocuparme por la salud de la unidad? ¿Podría esto variar según la capacidad de la unidad?

17
Jeremy

Los variadores, como la mayoría de los componentes, tienen una tasa de falla en la curva de la bañera. Fallan mucho al principio, tienen una tasa de fallas relativamente baja en el medio y luego fallan mucho al llegar al final de su vida.

Así como todo el disco sigue esta curva, áreas particulares del disco también seguirán esta curva. Verá muchas reasignaciones de sectores al comienzo de usar la unidad, pero esto debería disminuir. Cuando la unidad comience a fallar al final de su vida útil, comenzará a perder más y más sectores.

No necesita preocuparse por 6 (dependiendo de la unidad, consulte al fabricante), pero debe observar y ver la frecuencia de cada nueva reasignación. Si el deterioro se acelera o permanece igual, preocúpese. De lo contrario, debería estar bien después del período de rodaje inicial.

-Adán

13
Adam Davis

Releyendo el artículo de Google sobre el tema, " Tendencias de fallas en una población de unidades de disco grandes ", creo que puedo decir con seguridad que la respuesta de Adam es incorrecta. En su análisis de una población extremadamente masiva de unidades, aproximadamente el 9% tenía recuentos de reasignación distintos de cero. La cita reveladora es esta:

Después de su primera reasignación, las unidades tienen 14 veces más probabilidades de fallar en 60 días que las unidades sin recuentos de reasignación, por lo que el umbral crítico para este parámetro también es uno.

Es aún más interesante cuando se trata de "reasignaciones fuera de línea", que son reasignaciones descubiertas durante la limpieza en segundo plano de la unidad, no durante las operaciones IO solicitadas). Su conclusión:

Después de la primera reasignación fuera de línea, las unidades tienen 21 veces más posibilidades de fallar en 60 días que las unidades sin reasignaciones fuera de línea; un efecto que es nuevamente más drástico que las reasignaciones totales.

Mi política de ahora en adelante será que las unidades con recuentos de reasignación distintos de cero se programen para su reemplazo.

20
Insyte

Es probable que diferentes unidades tengan diferentes parámetros. En una unidad que verifiqué por última vez que era un disco de la serie empresarial de 1TB de un proveedor, había 2048 sectores reservados para reasignación.

Puede estimar el número de sectores reservados mirando en el informe S.M.A.R.T. en una unidad que tiene un número distinto de cero de sectores reasignados. Considere un informe sobre una unidad fallida a continuación.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Aquí se ha utilizado el 95% de su capacidad reservada, que son 1955 sectores. Por lo tanto, la capacidad inicial fue de aproximadamente 2057. De hecho, es 2048, la diferencia se debe al error de redondeo.

El S.M.A.R.T. convierte la unidad en un estado de falla cuando el número de sectores reasignados alcanza un cierto umbral. Para la unidad en cuestión, este umbral se establece en el 64% de la capacidad reservada. Eso es aproximadamente 1310 sectores reasignados.

Sin embargo, los sectores reservados no se encuentran en un tramo continuo. En su lugar, se dividen en varios grupos, cada grupo se utiliza para reasignar sectores de una parte específica del disco. Esto se hace para mantener los datos locales en un área del disco.

La desventaja de la localidad es que el disco puede tener muchos sectores reservados. Sin embargo, es posible que un área ya se quede sin capacidad reservada. En este caso, el comportamiento depende del firmware. En una unidad, observamos que entra en un estado FALLIDO y se bloquea cuando ocurre un error en una parte que ya no está protegida.

3
Dmitri Chubarov

Es posible que desee ejecutar una autoprueba larga S.M.A.R.T., Si la unidad lo admite. Esto puede brindarle más información sobre el estado de la unidad. Si su NAS no puede hacer esto, y si puede sacar la unidad o apagar el NAS durante unas horas, entonces puede hacer la autoprueba larga con el disco duro conectado a otra máquina.

2
Eddie

¡Cuando un disco tan nuevo se comporta así, no se debe confiar en absoluto!

Devuélvala lo antes posible y obtenga una unidad de repuesto.

Los diferentes fabricantes tienen diferentes números de "pérdida aceptable" (la misma idea que con los monitores y los píxeles defectuosos). Consulte con el fabricante de la unidad para averiguar cuál es su estándar.

Sin embargo, parece una mala tendencia ...

1
Brian Knoblauch