it-swarm-es.com

Cliffhanger: Las copias de seguridad están bien ... aquí ... ¿verdad?

En mi trabajo, las copias de seguridad tienen una prioridad sorprendentemente baja. La estrategia de respaldo se implementó hace un tiempo, y desde entonces se supone que las copias de seguridad están bien. Si le preguntas a los SysAdmins, dirán que todo está respaldado.

Pero luego, cuando pides una copia de seguridad específica, la mitad del tiempo no están allí:

  • El disco se llenó
  • La cinta falló
  • Parece que alguien deshabilitado el trabajo de respaldo
  • La conexión de red tenía tiempo de inactividad.
  • Pedimos que el disco hace años, pero Finance no ha aprobado la orden de compra.
  • Los archivos son corruptos.
  • El archivo contiene una base de datos incorrecta
  • Sólo las copias de seguridad del registro de transacciones (inútil sin uno completo)

Hace unas semanas, el desastre se produjo real, ya que uno de los servidores perdió uno demasiados discos RAID. Afortunadamente, un disco aún era lo suficientemente amable como para copiar los datos, si intentaba muchas veces.

Pero incluso después de eso, casi desastre, parece que no puedo convencer a los SysAdmins para mejorar la situación. ¿Así que me estoy preguntando, algún consejo para abrir los ojos de la gente? Me parece que estamos caminando por el borde de un acantilado.

28
Andomar

Donde trabajo tenemos un departamento de TI seriamente bueno, cada año se reúnen de todas las oficinas de Europa y tienen un 'Festival de RESTORE' en los servidores alquilados en un Datacentre, que simulan de manera efectiva lo que sucedería si el personal vino a trabajar un día y encontró el La oficina se había quemado durante la noche.

¡Consigue que el gran jefe involucrado, le recuerde que si se derriba un desastre, estaría fuera de una ventaja de ese año (o peor!) Y así tal vez sería prudente organizar un ejercicio de recuperación de desastres similar. No debería tomar mucho tiempo o costar mucho: los administradores se envíen con sus cintas de respaldo offsite y le dijeran a un entorno de oficina idéntico.

Luego, siéntate y vete, mejora, una vez que la administración se dé cuenta de que los datos de la compañía están peligrosamente cerca de perderse permanentemente, las chispas volarán (de los cohetes que se colocarán estratégicamente en dichos administradores)

5
gbjbaanb

Proponer (como mínimo) pruebas anuales de recuperación de desastres. El trabajo requerido para ejecutar con éxito la prueba debe revelar deficiencias.

5
aharden

Es fácil culpar a los administradores, sin embargo, Oskar lo tiene bien: estas cosas son impulsadas desde la parte superior. Si la gerencia no pasará los dólares para hacer de las copias de seguridad una prioridad, entonces los SysAdmins generalmente están fuera de la suerte y hacen lo mejor que pueden con los recursos que tienen.

La clave, si usted es uno de esos administradores desafortunados, y he estado en este barco para algunos compromisos de los clientes, es que se asegura de que la administración sea informada, repetidamente y de una manera confirmable de papel-sendero, que esto sea un riesgo para el negocio.

Mi estrategia es martillar constantemente en los problemas. Si haces eso, a veces los problemas se solucionarán, pero es sobre todo para que quien informe no pueda esconder detrás de la excusa "Nunca fui informado". Como consultor, por lo general puedo ir mejor. Puedo hacer que mis jefes breves sean más altos de la alta gerencia que yo, eso hay una vulnerabilidad. Esto difunde la culpa, o al menos lo enfoca a un nivel más alto que yo.

Al mismo tiempo, debe ser inventivo y trabajar duro para minimizar los riesgos con los recursos que pueda proporcionar el cliente.

Si bien, en algunos casos, los administradores pueden ser culpables, la administración siempre es responsable: ya sea para conocer el riesgo y no hacer lo suficiente para mitigarlo, o la contratación de personas que no les avisan a estos riesgos.

4
David Mackintosh

Soy responsable de unos 200 servidores distribuidos en el noroeste del Reino Unido, y esto es obviamente demasiado para comprobar manualmente.

Configuro la copia de seguridad para que, al finalizar, ejecuta un script (vbscript) que analice el registro de copia de seguridad, funciona si la copia de seguridad funcionó o no escribe un registro en una base de datos central con el resultado de la copia de seguridad. Luego, en la oficina central, ejecuto un script que consulta esta base de datos y me presenta una lista de sitios donde la copia de seguridad informó un error o no hubo ningún informe del sitio.

El resultado final es que cuando me siento en mi escritorio, tengo una lista de todos los sitios donde necesito revisar la copia de seguridad.

El punto de todo es que la suposición predeterminada es que la copia de seguridad falló, y se considera que la copia de seguridad ha funcionado solo si mi vbscript no detectó errores :y escribió esta conclusión i a mi base de datos. Esto se asegura de que los fallos de respaldo no pasen desapercibidos.

Algunos de los servidores usan Backup Exec, algunos NTBackup y algunos simplemente copian sus archivos a otro servidor a través de la red. No importa qué tipo de copia de seguridad haga los servidores, ya que es fácil ajustar mi vbscript para verificar si hay errores. Mi script es bastante básico, solo abre el informe de respaldo como archivo de texto y GREPS para frases como "Error al montar", "Cinta completa", "Error CRC", etc. Estoy seguro de que un programador profesional un trabajo slicker. Sin embargo, todo lo que es simple y robusto, y es proactivo en el sentido de que veo el informe de falla de la copia de seguridad, ya sea que quiero o no, y solo no lo pondré en cuenta un error si decidí conscientemente ignorar el informe.

Jr

El PS 99% de las fallas de respaldo se debe a que los usuarios se olvidaron de cambiar la cinta de respaldo. ¿No amas a los Lusers :-)

3
John Rennie

Una copia de seguridad que no se prueba no es una copia de seguridad en absoluto.

2
Dave Cheney