it-swarm-es.com

¿Cuál es tu lista de verificación para cuando todo estalla?

Los usuarios no pueden acceder a su correo electrónico, el director ejecutivo no puede acceder a la página de inicio de la empresa y su buscapersonas acaba de sonar con un código "911". ¿Qué haces cuando todo explota?

40
Jon Galloway

¡La primera respuesta es mantener la calma! Aprendí que por las malas que el pánico a menudo empeora las cosas. Una vez que se ha logrado, lo siguiente es determinar realmente cuál es el problema. Las quejas de los usuarios y gerentes le llegarán desde todos los ángulos y le dirán lo que ELLOS no pueden hacer, pero no cuál es el problema.

Una vez que conozca el problema, puede iniciar el plan para solucionarlo y comenzar a darles a sus usuarios enojados un calendario

35
Sam Cogan

Mantén la calma

No se asuste. ¡Respirar! (Desde el diafragma, ayuda). Si ha estudiado meditación, eso también puede ayudar.

Cuando se enfrenta a un estrés extremo, su cuerpo entrará en un modo de huir o luchar, porque su cuerpo cree que está en una situación de vida o muerte. En este momento, su cuerpo bombeará menos sangre a algunas partes de su cerebro, disminuyendo funciones como el razonamiento. Esto efectivamente reduce su coeficiente intelectual ya que el instinto, en lugar de la racionalidad, comienza a dominar sus funciones cerebrales. Si alguna vez ha estado en una discusión acalorada o ha sido testigo de ella, puede reconocer estos síntomas a medida que las emociones de las personas estallan y la racionalidad se toma unas vacaciones. Más tarde, cuando la gente tenga la oportunidad de calmarse, será más probable que acepte haber cometido un error o haberse equivocado, y será más capaz de ver el otro lado, pero en el calor del momento, menos.

Mantener la compostura y mantener la cordura mantendrá su cerebro funcionando a plena capacidad y se asegurará de que tome decisiones racionales basadas en la evidencia y la razón en lugar de la emoción y el miedo.

Triaje

La aplicación eficiente de recursos limitados para lograr el mayor beneficio al menor costo es de suma importancia aquí. Tome las decisiones lo antes posible qué cosas deben arreglarse AHORA MISMO, cuáles pueden esperar un poco (horas, días) y cuáles pueden esperar indefinidamente. También aprenda a darse cuenta cuando algo no se puede salvar y no vale la pena salvarlo (por ejemplo, la mitad del enrutador se derritió, incluso si es el único, no puede guardarlo, comprar uno nuevo y obtenerlo en el sitio a toda prisa o encontrar algo que pueda llenar el hueco temporalmente).

Conservar la conciencia situacional

No permita que su atención quede atrapada por algún problema interesante o por algo que aún no comprende del todo. Concéntrese en el panorama general y en hacer funcionar las cosas más importantes.

tilice el método científico

Formule una hipótesis. Determina cómo probarías esta hipótesis. Reúna datos para probar la hipótesis. Busque también datos que no confirmen. Refina tu hipótesis y repite el ciclo tantas veces como sea necesario hasta que tengas suficiente confianza en tu hipótesis para actuar.

Sea pragmático

Ahora no es el momento de los dogmas. Está bien tomar algunos atajos aquí y allá cuando se recupere de un desastre. Básicamente, se trata de acumular deuda técnica. En muchas empresas, una falla catastrófica significa una pérdida catastrófica de ingresos. Es mejor poner las cosas en marcha, aunque sea con una base inestable, que perder el tiempo y arriesgar el sustento de su empresa. Como siempre, el juicio es de suma importancia aquí. A veces tiene sentido apuntalar un ventilador de caja apuntando a un rack de servidores, a veces no.

Cuida de ti mismo

¿Cuánto tiempo llevas trabajando en esta emergencia? ¿Cuándo fue la última vez que bebió agua? ¿Cuándo fue la última vez que comiste? ¿Cuánto tiempo llevas despierto? No se agote solo porque haya una emergencia, tómese el tiempo para mantenerse hidratado, alimentado y descansado (en caso de que sea un trabajo largo de varios días).

Ayuda para reclutar

Es casi seguro que en su empresa haya muchas personas con talento que estén motivadas y sean capaces de prestar ayuda. Sin embargo, tenga cuidado de que haya demasiadas personas corriendo y causándose problemas entre sí. También tenga cuidado con las personas molestas sometiéndolas a un "simulacro de incendio". Encuentre personas que ya quieran ayudar, hágalos trabajar en tareas específicas y asegúrese de que las personas se estén comunicando entre sí.

Comunicar

La comunicación es fundamental. Nada es tan aterrador como lo desconocido. Cuando la gente no sabe nada más que que algo está roto, una afirmación vacía de que volverá a funcionar en X horas es solo un poco tranquilizador (incluso menos tranquilizador después de que hayan pasado X horas y las cosas todavía estén rotas). Las presiones en juego pueden llevarlo a dar estimaciones de tiempo de WAG demasiado optimistas, pero este es el camino equivocado. No digas que estás trabajando en ello, no digas que las cosas se arreglarán para X tiempo. Sea abierto, muestre su proceso, detalle su progreso y sus contratiempos. Proporcione información sobre el problema, su proceso para rastrearlo y su plan para arreglar las cosas (aunque no ahogue a las personas en minucias). Muestre que el problema no es intratable, demuestre que las cosas se arreglarán eventualmente, demuestre que hay personas competentes en el problema, estas cosas son más tranquilizadoras que las promesas infundadas de un cronograma.

59
Wedge

Que no cunda el pánico.

24
Jauder Ho

Paso 0. Verifique que no sea su sistema de monitoreo el que tenga la falla

22
Dave Cheney

iniciar sesión en el servidor

12
Phil Nash

Reserve inmediatamente un vuelo a un país sin extradición

11
Glenn Slaven

Primero revisa lo básico, parece una tontería, pero cosas como

  1. ¿Está encendido en la instalación del servidor? (si hospeda fuera del sitio)
  2. ¿Su proveedor de alojamiento no funciona?

Sé que se puede perder mucho tiempo buscando una solución cuando el problema es ascendente

8
Glenn Slaven

Lo siento, pero esta pregunta ya está perfectamente respondida en Caricatura favorita del administrador de sistemas :

Disaster recovery plan of Dilbert

6
Rene Saarsoo

Hago ping cosas. Lo que sucede después de eso varía mucho según los resultados del ping.

6
Dylan Beattie

Culpa a la red.

(¡es una broma!)

4
Guy

RTFLF - Leer el archivo de registro de Frakkin '

(No puedo atribuirme el mérito de esto, todo va a Scott Hanselman )

3
Dillie-O

No intentes arreglar nada todavía.

Asegúrese de saber exactamente cuál es el problema real subyacente. Ahora empezando a arreglar las cosas. Si hay varias cosas que arreglar, considere cuidadosamente qué cosas pueden retrasarse (¡con suerte hasta el siguiente día hábil, al menos!) Y cuáles deben ser reparadas ahora.

Pero lo más importante: una vez que todo esté funcionando, pregunte por qué "todo explotó". ¿Qué vas a hacer para evitar que esto vuelva a suceder? ¿Hay algún paso que facilitaría la solución si vuelve a ocurrir?

2
Stewart

Hágale saber a la gente que lo está haciendo y, si es posible, dígales una estimación de cuándo las cosas volverán a la normalidad.

En cuanto a la resolución de problemas reales, obviamente depende de lo que esté mal. Por lo general, mantengo una colección de scripts de "verificación de estado" para varios servicios.

1
Brian Rasmussen

¡Compruebe el cableado! Perdí horas revisando otras cosas cuando un simple intercambio de cable Eth0 habría resuelto el problema ...

1

Me gusta esta lista de resolución de problemas La aplicación simple de resolución de problemas ahora soluciona todo =)

0
Artur Carvalho

Es difícil a partir de la declaración proporcionar un conjunto específico de acciones. Su primer movimiento se basará en:

  • Dónde estás
  • Cuánta información puedes sacar de la persona que te contactó
  • ¿Qué herramientas inmediatas tiene a mano para solucionar problemas (o buscar información)?
  • Su conocimiento sobre las rutas físicas y lógicas de su red.
  • ¿Cuánta ayuda tienes (¿parte de un equipo? ¿O un ninja solitario?)

Obviamente, debe mantener la calma y estar alerta sobre el problema en cuestión. Su experiencia con la resolución de problemas de red le habrá enseñado que esto podría ser algo trivial, como:

  • Un cable desconectado
  • Un mantenimiento no anunciado (otra tecnología que 'arregla' cosas)
  • Su director ejecutivo reaccionó de forma exagerada acerca de que la empresa estaba completamente condenada después de que se perdiera la conectividad inalámbrica de su computadora portátil debido a que puso en el microondas una pizza de queso.

Dicho esto, también podría ser algo grave en las categorías de:

  • Transporte físico (conectividad)
  • Hardware (enrutador\conmutador\servidor)
  • Almacenamiento (inaccesible\comprometido\eliminado)
  • Software (Servicio> Configurado incorrectamente\Atacado\sin conexión)

El componente clave es cuánto SABE USTED sobre el problema. ¿Cuál es tu punto de referencia? (¿desde qué perspectiva está 'el sistema caído'?).

0
l0c0b0x

Debe tener planes de contingencia.

Los sistemas esenciales deben diseñarse con conmutación por error automática o con un plan de recuperación documentado y probado.

Cuanto más importante sea el sistema, más capacidad de recuperación debe incorporar y más automático debería ser.

Si no tienes uno, entonces no es importante, ¿verdad?

0
Guy

Empiece simple y trabaje hacia lo absurdo.

¿Poder?

Ethernet?

¿Programa en ejecución?

...

Extraterrestres?

0
Robert

Verifique el DNS.

0
Cawflands

Asegúrese de que la copia de seguridad de su currículum sea segura :) Luego,

Encuentra los puntos en común. Lo que es común a todos los sistemas afectados.

Encuentra lo que ha cambiado. Debería tener alguna gestión de cambio formal en su organización.

¿Dónde está el chico nuevo ... dónde está el jefe ...? ¿Alguno de ellos tomó un atajo? (es solo un reinicio rápido del servidor, ¿qué podría doler?)

0
BIBD