it-swarm-es.com

El mejor accidente del administrador del sistema

Estoy buscando historias divertidas de accidentes de administradores de sistemas que haya tenido. Eliminar el correo electrónico del CEO, formatear el disco duro incorrecto, etc.

Agregaré mi propia historia como respuesta.

87
Alan H

Me divertí descubriendo la diferencia entre el comando "killall" de linux (mata todos los procesos que coinciden con el nombre especificado, útil para detener zombies) y el comando "killall" de solaris (mata todos los procesos y detiene el sistema, útil para detener el servidor de producción en en la mitad de las horas pico y haciendo que todos tus compañeros de trabajo se rían de ti durante una semana).

133
Tim Howland

Estaba a cargo de nuestro proxy web corporativo que en ese momento era el producto de Netscape. Mientras jugaba en los formularios de administración (era una interfaz basada en la web) había un gran botón (y juro que era rojo) que decía Eliminar base de datos del usuario. No hay problema, pensé. Veamos cuáles son las opciones que me da cuando golpeo eso. Seguramente habrá un mensaje de confirmación si no hay opciones.

Sí, no hay confirmación Sin opciones. No más usuarios.

Entonces, fui al Sr. Solaris Sysadmin y le dije que necesitaba desesperadamente una restauración de la cinta, a lo que él respondió: "No respaldo esa caja".

"Uh, ven de nuevo", le respondí.

"No respaldo esa caja. Está en mi lista de cosas para agregar a la rotación de respaldo, pero aún no la he logrado".

"¡Este servidor ha estado en producción durante casi 8 meses!" Grité.

encogerse de hombros , respondió. "Lo siento."

73
squillman

Hace muchos años, la compañía para la que trabajaba tenía un cliente que ejecutaba una copia de seguridad nocturna de su servidor NT 4.0 en un nidad Jaz (como un disco Zip de alta capacidad).

Configuramos un archivo por lotes, que se ejecutó como un trabajo programado durante la noche. Todas las mañanas recogían el disco de las últimas noches de la unidad, y antes de irse por la tarde, insertaban el siguiente disco en la secuencia.

De todos modos, el archivo por lotes se parecía a esto (la unidad Jaz era unidad F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

De todos modos, una noche se olvidaron de poner el disco. El cambio a la unidad F: falló (no hay disco en la unidad), y el archivo por lotes continuó ejecutándose. ¿El directorio de trabajo predeterminado para el archivo por lotes? C:. La primera vez que he visto una rutina de copia de seguridad destruir el servidor del que estaba realizando la copia de seguridad.

Ese día aprendí algo sobre la administración de sistemas (y el manejo de excepciones).

Jim.

PD: ¿La solución? "deltree/y F:\*. *".

66
Jim OHalloran

root @ dbhost # find/-name core -exec rm -f {} \;

Yo: "¿No puedes entrar? OK. ¿Cuál es el nombre de DB?"

Cu: "Core".

Yo: "Oh".

61
Dave

Me encanta la forma en que todos califican su historia con "cuando era joven/verde" como si nunca lo volvieran a hacer. Los accidentes pueden suceder incluso a los profesionales más experimentados.

Mi peor momento es tan malo que todavía me dan palpitaciones al pensar en eso ...

Tuvimos un SAN con datos de producción en él. Crítico para la compañía. Mi "mentor" decidió extender una partición para liberar espacio en el disco. ¿Puedes ver hacia dónde se dirige esto? Dijo que el software SAN) podría hacer esto en vivo, en horas de producción y nadie lo notaría. Las campanas de alarma deberían haber comenzado a sonar, pero eran notablemente silenciosas. Dijo que lo había hecho "un montón de veces antes "sin problemas. Pero aquí está la cosa: me hizo hacer clic en el botón que decía" ¿estás seguro? ". Como era nuevo en la compañía, asumí que este tipo sabía de lo que estaba hablando. Gran error. La buena noticia fue que el LUN se extendió. La mala noticia fue ... bueno, sabía que había malas noticias cuando comencé a ver errores de escritura en el disco en el cuadro de Windows.

Me alegro de estar usando pantalones marrones.

Tuvimos que explicar por qué 1 TB de datos habían desaparecido a la hora del almuerzo. Ese fue un muy, muy mal día.

En realidad, es un buen principio: antes de hacer algo sobre lo que tenga dudas, imagine tener que explicarle a la gerencia si algo sale mal. Si no puede pensar en una buena respuesta para explicar sus acciones, no lo haga.

60
PowerApp101

Nagios nos llamó la atención una mañana cuando el horario comercial comenzó a decir que no podía conectarse a un servidor no crítico. Ok, camina a la sala de servidores. Es un servidor antiguo, un Dell 1650 comprado en '02, y sabíamos que el 1650 tenía problemas de hardware. El PFY apuñala el botón de encendido. Nada. Golpee nuevamente y manténgalo presionado durante cinco segundos para 'forzar el encendido' ... lo que anula la protección contra errores del BMC, ya que sin un DRAC no hay forma de examinar los registros del BMC sin tener el chasis encendido.

La máquina inicia POST y luego muere nuevamente. Estoy de pie encima y digo: "Huelo humo". Sacamos el servidor de sus rieles, y una de las fuentes de alimentación se siente caliente, por lo que el PFY lo tira y está a punto de cerrar la caja. Yo digo: "No, eso no es humo de la fuente de alimentación, es humo de la placa base".

Abrimos la caja nuevamente y buscamos la fuente del olor a quemado. Resulta que una bobina inductora y un condensador explotaron algo del regulador de voltaje en la placa base, y rociaron cobre fundido y un condensador en todo, acortando un montón de cosas y básicamente haciendo un gran desastre.

La peor parte para mí fue reconocer que había fumado suficiente hardware para reconocer la diferencia entre el olor de una placa base quemada y una fuente de alimentación quemada.

54
Karl Katzke

Hace tres días (en serio), inicié sesión de forma remota en un servidor escolar, instalando el Service Pack 2 en un servidor de archivos de Windows Server 2008.

Decidí programar el reinicio necesario a altas horas de la noche, cuando los maestros no estarían conectados para terminar sus boletas de calificaciones de fin de año. Escribí algo como:

 a las 23:59 "apagado -r -t 0" 

... que podría haber funcionado bien.

Pero luego me adiviné a mí mismo. ¿Era correcta la sintaxis de 'apagado'? Traté de ver la ayuda de uso escribiendo

 apagado/h 

... e instantáneamente perdí mi conexión RDP. En pánico, busqué en Google la sintaxis. Una búsqueda rápida reveló que la versión de apagado de Server 2008 incluye un interruptor/h, que (como habrás adivinado) hiberna la máquina.

Los maestros comenzaron a llamarme en cuestión de minutos para informar que ya no podían abrir o guardar las boletas de calificaciones en las que habían estado trabajando. Como estaba fuera del sitio y la sala de servidores estaba cerrada, tuve que llamar al director de la escuela directamente y guiarla a través del proceso de encendido de la máquina.

Hoy traje galletas caseras a todos como una forma de disculpa.

47
Brent D

En un trabajo anterior, teníamos un excelente sistema de cosecha propia que registraba y archivaba cada pieza de correo que ingresaba, salía o permanecía dentro de la empresa.

¿Volaste todo tu buzón? ¡No hay problema! ¿Busca un correo que alguien le envió hace una semana/mes/año pero no recuerda quién lo envió o cuál fue el tema? ¡No hay problema! Volveremos a enviar todo desde febrero para usted a una carpeta especial.

En algún momento, surgió la necesidad de que el CEO de la compañía supervise el correo entre un competidor y un vendedor interno bajo sospecha. Así que configuramos un script que se ejecutaba todas las noches y entregaba el correo relevante del día anterior al CEO. ¡No hay problema!

Alrededor de un mes después, la noticia de un problema urgente doble más surgió de lo alto. Parece que mientras el CEO estaba leyendo la lista de correos enviados a $ OTHERCOMPANY, se encontró con este:

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Naturalmente, siendo el CEO una persona importante y todo, estaba demasiado ocupado para hacer clic en todos los cuadros de diálogo "Enviar confirmación de lectura" en Outlook y había configurado a su cliente para que simplemente los enviara a todos. Uno de los mensajes capturados por el filtro de monitoreo tenía un conjunto de solicitud de recibo de lectura. ¿Adivina qué hizo Outlook? Ciertamente fastidió el monitoreo 'clandestino'.

Nuestra siguiente tarea: agregar reglas al filtro de correo para bloquear los recibos de lectura salientes del CEO a esa compañía. Sí, fue la forma más fácil. :)

37
MikeyB

Ahhh, la mía fue hace unos 10 años, cuando todavía me estaba mojando los pies. Tuve la alegría de instalar baterías de respaldo en todas las computadoras de los programadores. También querían que se cargara el software para advertir sobre un corte de energía y apagarse correctamente.

Así que lo configuré en mi computadora para probar todo primero, por supuesto, y asegurarme de que todo funcionó. Así que desconecto el cable de alimentación y aparece el mensaje en mi pantalla. "energía externa perdida, comenzando el apagado del sistema".

Entonces pensé, hey genial, funcionó. Pero por alguna extraña razón, ni siquiera recuerdo, envió ese mensaje como un mensaje de red, por lo que todas las más de 200 computadoras de la compañía recibieron ese mensaje, donde más de 100 usuarios fueron programadores.

¡Sí, hablamos de locura!

¡Mantuve mi cabeza baja en ese lugar por un tiempo!

36
jherlitz

A menudo usaba el comando "sys-unconfig" en máquinas Solaris para restablecer el servicio de nombres de máquina, I.P. dirección y contraseña de root. Estaba en un sistema de usuarios e inicié sesión en el servidor de instalación del edificio y busqué algo (como root), luego olvidé que había iniciado sesión en otra máquina (mensaje no descriptivo "#") Ejecuté el comando "sys-unconfig".

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Ese mensaje de "conexión cerrada" se convirtió lentamente en pánico ... en qué máquina estaba conectado cuando ejecuté ese comando.

La peor parte de esto no fue el mal momento que me dieron mis compañeros de trabajo, sino que hice lo mismo un mes después.

35
Alan H

Tengo una muy buena. Es cierto que fue antes de mi tiempo como administrador de sistemas, pero todavía estaba relacionado con la tecnología, así que pensé que lo agregaría.

En el pasado, trabajaba como técnico de satcom/banda ancha para la USAF. Después de graduarme de la escuela técnica, me encontré estacionado en Corea del Sur. Poco después de llegar a la estación, surgió la oportunidad de viajar hacia el sur con los "grandes" que habían estado allí por un tiempo y trabajar realmente en algún equipo del mundo real (es decir, `producción ').

Bajé con la tripulación y, como un joven y ansioso técnico, estaba masticando un poco, muy emocionado ante la perspectiva de tener en mis manos un equipo real que estaba pasando el tráfico de voz y datos militares EN VIVO.

Para comenzar lentamente, me entregaron un manual, pasaron a la sección de mantenimiento preventivo y me señalaron en la dirección de cuatro bastidores llenos de varios multiplexores digitales grandes. El equipo fue bastante fácil, cubrimos el mismo equipo en la escuela de tecnología.

Primera página del manual leído; "Aplique energía al multiplexor digital. Gire ambos interruptores traseros a la posición de ENCENDIDO y espere a que el equipo se encienda, luego comience las pruebas". ¡Miré hacia arriba y ya había energía APLICADA!

Estaba en un dilema seguro. Sin saber cómo proceder, disparé lo mejor que pude, 'Ummmm ... un poco perdido aquí' mira al senior.

Me miró y se rió, "No, no, está bien. Puedes ignorar esa parte de la lista de verificación". Luego, cuando notó la expresión de mi cara, (dado que en la escuela nos enseñaron a NUNCA, NUNCA ignorar cualquier parte de una lista de verificación, y era una muerte y destrucción segura si se hiciera eso) puso una mirada seria en su rostro. y dijo: "¡Ignora SÓLO esa parte! ¡Sigue el resto al pie de la letra!"

Cuidadosamente, seguí las instrucciones de varios pasos PM), feliz como una almeja y orgulloso de que dejaran que una tecnología de tan bajo rango (aunque inteligente) hiciera este importante trabajo.

En algún lugar entre la quinta y sexta lista de verificación de mantenimiento preventivo en estos enormes multiplexores, comencé a notar un mayor nivel de actividad a mi alrededor. Los teléfonos sonaban, la gente se movía rápidamente. Miradas extravagantes estaban siendo intercambiadas.

Finalmente, un grupo de personas corrió hacia mí, encabezado por uno de los técnicos superiores que me había derribado.

"¡Oye! ¡Estamos viendo ENORMES interrupciones en el tráfico de datos, y hemos aislado/rastreado el camino de regreso a los bastidores en los que estás trabajando! ¿Estás viendo algo extraño ..."

(En ese momento, fue interrumpido por otro de los solucionadores de problemas que se dirigió al primer grupo de multiplexores en el que había estado realizando los PM).

"¡NUEVAS TUERCAS! ¡ESTÁN APAGADAS! ¡LAS HA APAGADO!"

En poco tiempo, observé mientras corrían apresuradamente a través del primer paso en el manual, "Gire ambos interruptores traseros a la posición de ENCENDIDO ..." Cuando el técnico superior terminó, se acercó a mí y me preguntó con incredulidad qué estaba pensando. de, apagando los equipos críticos.

Asustado de mi ingenio, le entregué la lista de verificación que había estado siguiendo, jurando que no me había desviado en absoluto. Que lo había seguido, "al pie de la letra" como él me había indicado.

Después de un rato se echó a reír y señaló dónde estaba el problema.

En el manual, el paso FINAL en la lista de verificación de mantenimiento preventivo fue:

"Registre la lectura final de la sonda, limpie el panel frontal, elimine todo el polvo y las partículas, luego gire ambos interruptores de alimentación traseros a la posición de APAGADO".

:)

27
Greg Meehan

Estaba recargando un sistema para alguien, y durante el proceso de copia de seguridad manual le hice la pregunta "¿Tiene algún otro programa que use?" y "¿Hay algo más importante que hagas en la computadora?"

Él dijo "no" VARIAS veces.

Estaba convencido y formateé el disco.

Unos 30 minutos después, dijo "oh, Dios mío" y se llevó las dos manos a la cabeza.

Resulta que había estado trabajando en un guión de libro durante más de 10 AÑOS en un programa especializado. Esto fue cuando los programas solían guardar los datos del usuario en su directorio de archivos de programa y lo perdí.

Whhhooooops.

No estaba enojado conmigo, pero era un sentimiento aleccionador.

26
MathewC

Es una especie de accidente de administrador de sistemas ... en la medida en que los administradores de sistemas ocasionalmente tienen que transportar físicamente un gran número de máquinas desde el punto A al punto B (donde A y B aparentemente siempre están separados por varios tramos de escaleras en un edificio sin ascensor). En el enésimo viaje del día, me detuve a tomar un respiro tres pisos más arriba del nivel de carga del sótano para conversar con alguien que bajaba, apoyé la torre de gran tamaño con la estación que estaba subiendo en el pasamanos interior de la escalera abierta y ... bueno, adivinaste ... perdí un poco mi control sobre eso. Se hundió infaliblemente por el pozo y cuando llegó al fondo, er ... ¡no tanto con la funcionalidad para ese! Total de piezas recuperables: dos unidades de RAM, una unidad de disquete y una tarjeta ISDN (¡Dios bendiga a los ingenieros de Hermstedt!). Todo lo demás se rompió, traqueteó o se hizo pedazos.

Por la gracia de Dios, nadie caminaba debajo, lo que, afortunadamente para mí, fue el primero de mi jefe, así que tuve que mantener mi trabajo. Me sentí muy enfermo durante una hora más o menos.

Moraleja: ¡la gravedad siempre gana!

26
avstrallen

Mi favorito personal no es realmente el mío, y estoy MUY contento de ello. Echa un vistazo aquí

23
RainyRat

Esto no me pasó a mí, pero ...

Estaba trabajando en una empresa que fabricaba software que se ejecutaba en máquinas Linux proporcionadas por el cliente. Esencialmente, nos haríamos cargo de las máquinas, las configuraríamos completamente según nuestras especificaciones y haríamos toda la gestión y supervisión. Esencialmente, éramos un equipo de 10-15 administradores de sistemas, administrando miles de servidores para cientos de clientes. Los errores estaban destinados a suceder.

Uno de nuestro equipo encontró algunos problemas en un servidor (una copia de seguridad, creo), y decidió que debería ejecutar fsck en él. Detuvo todos los servicios relevantes, se aseguró de que el sistema hubiera recibido copias de seguridad recientemente y luego ejecutó el fsck, pero se quejó de que el sistema de archivos estaba montado. Como éramos remotos y no teníamos acceso remoto (DRAC, OIT, etc.), no podía hacer el fsck, pero estaba bastante seguro de que era seguro hacerlo con el sistema de archivos montado, si tenía cuidado.

Decidió probarlo él mismo ejecutando fsck en su partición raíz, con resultados predecibles: corrompió su partición raíz y no pudo arrancar más.

Confundido, fue y habló con el líder de nuestro equipo. El líder dijo que estaba bastante seguro de que no se podía hacer eso, y el miembro del equipo dijo "¡Claro que sí!", Tomó el teclado del líder y le mostró que podía hacerlo, ejecutando fsck en la partición raíz del líder. Que corrompió por completo su partición raíz.

¿Resultado final? No se pierden datos de clientes, gracias a las pruebas realizadas por el miembro del equipo. Se perdieron dos días de productividad de los empleados, pero eso valía mucho, mucho menos que los datos en la máquina del cliente. ¿Y para el registro? Puede ejecutar fsck en una unidad montada, pero solo para verificar los datos. No para repararlo. Ese fue el error del miembro del equipo.

-

Para agregar mi propia historia, estaba trabajando en la misma compañía e intentaba restablecer una contraseña de usuario. Nuestro sistema se negó a permitirme establecer la contraseña que necesitaba, porque rastreó los hashes de contraseñas antiguas y se negó a permitirle duplicar la contraseña. El mecanismo era simple: validaba su contraseña contra el hash más reciente en la base de datos.

(Y para el registro, tenía que ser la contraseña anterior porque era una cuenta compartida, y asegurarse de que todos supieran que la nueva contraseña no era práctica)

Decidí ir a la base de datos de usuarios y eliminar los nuevos registros para que usara el anterior. Todo es solo SQL (ejecuta una versión antigua de Sybase), por lo que es fácil. Primero, tuve que encontrar los registros:

SELECT * FROM users_passwords WHERE username='someuser';

Encontré el viejo registro que quería mantener; Había dos más delante. Decidí ser inteligente y simplemente eliminar algo más nuevo que el registro anterior. Al observar el conjunto de resultados, vi que la contraseña anterior era ID # 28 en la base de datos, y las nuevas eran ID # varios miles (sistema muy ocupado). Eso es simple, todas las filas antiguas eran> 28, entonces:

DELETE FROM users_passwords WHERE id > 28;

No hay nada peor que hacer una poda simple y ver '212,500 filas afectadas'. Afortunadamente, teníamos dos servidores de bases de datos maestros (con el ID de usuario), pero Sybase (al menos, nuestra versión) no admitía la replicación automática, por lo que no borró automáticamente los registros antiguos. Era un asunto trivial obtener un volcado de la tabla users_passwords y volver a importarlo. Aún así, un muy grande '¡oh f ** k!' momento.

23
Dan Udey

Mecanografiado kill 1 como root. init y todos sus hijos murieron. Y todos sus hijos. etc, etc. ¡Vaya!.

Lo que quise escribir fue kill %1

Después de darme cuenta de lo que hice, corrí al panel de control de una máquina de clasificación de balas de lana GRANDE y presioné el botón de parada de emergencia. Esto detuvo la máquina que se rompió en pedazos, ya que acababa de matar el software que lo controlaba.

22
Jason Tan

Declaración DELETE sin una cláusula WHERE, en la base de datos de clientes en vivo de los clientes.

22
Ian Boyd

Otro de mis favoritos:

Al configurar una computadora y una impresora láser local en un sistema, tuve la brillante idea de conectarlos a ambos en el UPS de la computadora. ¿Alguna vez trató de imprimir en una impresora láser local cuando está conectada a una UPS de escritorio? Bueno, si no lo sabe, tiende a extraer todos los amplificadores ... Lo que reinicia la computadora ... ¡Y el trabajo de impresión nunca termina ...!

Alguna vez recibiste la llamada: '¡Cada vez que imprimo, reinicia mi computadora y no imprime!'?

Ooops!

JFV

22
JFV

Estábamos en medio de un corte de energía y vimos que el UPS estaba funcionando al 112% de su carga configurada. Esto no fue un gran problema ya que estábamos corriendo en el generador en ese momento.

Así que fuimos tirando de cables de alimentación de respaldo para reducir el uso de energía en ese UPS (teníamos dos, uno mucho más grande que el otro). Llegamos al conmutador de red que ejecutaba la sala de servidores (esta era la sala de servidores con todos los servidores internos de la empresa, con el cliente frente a los servidores en otra sala de servidores). El conmutador era un conmutador de clase empresarial grande con tres fuentes de alimentación. Los suministros eran N + 1, por lo que solo necesitábamos dos para ejecutar el cambio.

Cogimos un cable y lo sacamos. Desafortunadamente para nosotros, los otros dos estaban enchufados en una sola regleta de alimentación, que explotó rápidamente a medida que aumentaba la carga en las dos fuentes de alimentación que estaban conectadas a ella. El administrador del sistema entró en pánico y enchufó el tercer cable. El interruptor intentó encenderse, colocando toda la carga del interruptor en la fuente de alimentación. En lugar de que la fuente de alimentación se apagara, explotó en una lluvia de chispas a menos de 12 pulgadas de mi cara, enviándome de regreso al estante de servidores.

Por instinto intenté saltar a un lado, pero desafortunadamente a mi izquierda había una pared, y dos a mi derecha era un tipo de instalaciones muy grande de 6'4 ". De alguna manera logré saltar sobre él, o posiblemente a través de él rebotando de los bastidores de Compaq (los que tienen los frentes de malla delgada) sin poner un todo en el bastidor y sin tocar el tipo de instalaciones.

21
mrdenny

En algún momento de mi carrera, una investigación legal en la empresa para la que trabajaba nos exigió que se mantuviera todo el correo electrónico desde "este día" en adelante, hasta que se indique lo contrario. Después de aproximadamente un año de almacenar copias de seguridad completas diarias de nuestro entorno de intercambio (1 TB por noche) comenzamos a quedarnos sin espacio.

Los administradores de intercambio sugirieron que solo conservemos cada octava copia del correo electrónico. Para hacer esto, les pedimos que restauren un día de las bases de datos de intercambio, extraigan el correo electrónico que necesitaban (personas específicas marcadas para investigación) y lo vuelvan a archivar. Lo hicieron por cada octavo día de correo electrónico para todas nuestras copias de seguridad. Se eligió el octavo día porque el intercambio tenía un conjunto de parámetros donde los "elementos eliminados" se mantienen en la base de datos durante 8 días.

Después de que terminaran cada archivo, volvería a revisar y eliminaría cualquier copia de seguridad que fuera anterior a lo que habían archivado.

TSM no tiene una manera fácil de hacer esto, por lo que debe eliminar manualmente los objetos de la base de datos de respaldo.

Escribí un script que eliminaría todas las copias de seguridad anteriores a alguna fecha, a través de un cálculo de fecha usando la diferencia entre hoy y la fecha en cuestión. Algún día tuve que eliminar aproximadamente un mes de copias de seguridad, excepto cuando hice el cálculo de la fecha, hice un error tipográfico e ingresé la fecha como 10/07/2007 en lugar de 10/06/2007, y ejecuté el script. Eliminé todo un mes adicional de datos, accidentalmente, lo cual fue parte de una demanda muy importante.

Después de eso, agregué algunos pasos al script para confirmar que deseaba eliminar los datos y mostrarle lo que iba a eliminar ...

Afortunadamente, nunca usaron ninguno de los datos que trabajamos tanto para preservar, y todavía tengo mi trabajo.

20
WerkkreW

Después de un largo día o de rastrear el rendimiento y ajustar un gran mainframe (ya sabes las bestias que tardan un par de horas antes de que todos los sitios de respaldo en espera hayan acordado que realmente se reinició y se sincronizó por completo) Estiré los dedos, escribí apagado satisfecho -p ahora en mi computadora portátil, cerré la tapa, saqué el cable serial de la unidad central, con la anticipación de un buen vaso de cerveza fría.

De repente escucho el sonido ensordecedor de girar la computadora central mientras mi computadora portátil todavía mostraba felizmente X.

Mientras esperaba que la máquina volviera a estar completamente en línea, decidí que tenía tiempo para que mi ACPI funcionara en mi computadora portátil, por lo que nunca tuve la tentación de apagar mi computadora portátil.

20

Eliminé la cuenta de alguien por error, confundí los nombres con el que se suponía que debía eliminar. Opps

Lo bueno es que nunca supieron lo que pasó. Recibí la llamada que no podían iniciar sesión, el centavo cayó sobre la cuenta que eliminé.

Mientras hablaba con ellos por teléfono, volví a crear rápidamente su cuenta, volví a adjuntar su buzón anterior (afortunadamente, Exchange no elimina los buzones de inmediato) y lo apunté a sus viejos archivos de usuario.

Luego los culpé por olvidar su contraseña, que acababa de restablecer para ellos :)

16
SpaceManSpiff

Accidentalmente instalé un archivo tar.gz en mi caja Gentoo Linux en el lugar equivocado y dejó archivos por todas partes. Esto debe haber sido alrededor de 1999, 19 en ese momento (gracias por los comentarios a continuación)

Siendo el geek que soy, decidí tratar de hacer un script fuera del trabajo de revisar manualmente cada archivo.

Entonces intenté:

tar --list evilevilpackage.tar.gz | xargs rm -rf

No tardé mucho en darme cuenta de que tar también enumeraba todos los directorios que el programa estaba usando, los incluidos eran ''/usr,/var,/etc '' y algunos otros que realmente no quería que desaparecieran.

CTRL-C! CTRL-C! CTRL-C! ¡Demasiado tarde! Todo se fue, reinstala el tiempo. Afortunadamente, la caja no contenía nada importante.

16
Andrioid

Este accidente no sucedió ... pero vale la pena mencionarlo:

Me enviaron a un centro de datos muy utilizado para realizar pruebas de ancho de banda en un nuevo circuito. Llegué a la sala de demarcación/IDF, encontré un lugar en uno de los bastidores para mi enrutador de prueba, hice mis conexiones y comencé las pruebas. Desafortunadamente, no noté por completo que el enrutador de borde en producción no solo estaba exactamente en el siguiente rack (casi al mismo nivel), sino que también era de la misma marca y modelo que mi enrutador de prueba.

Cuando se realizó la prueba, comencé a presionar el interruptor de encendido a la posición de apagado (... imagínelo en cámara lenta ...) y, lo juro, justo cuando estaba aplicando presión, me di cuenta de que el enrutador estaba cerca apagar fue el que estaba en producción. Mi corazón se detuvo y casi ... bueno, uso tu imaginación.

Dejé el centro de datos MDF con aspecto aterrado y pálido, ¡pero al mismo tiempo contento de que todavía tenía un trabajo!

16
l0c0b0x

Como una parte más pequeña de mi vida anterior, administré el servidor de archivos de la compañía, un cuadro de netware 4:11. Casi NUNCA necesitó ninguna entrada, pero si lo hizo, abrió una ventana de consola remota.

Acostumbrado a usar DOS todo el tiempo, cuando terminaba, naturalmente escribía "Salir". Para Netware, "salir" es el comando para apagar el sistema operativo. Afortunadamente, no le permitirá apagarlo a menos que primero "apague" el servidor (haga que no esté disponible para la red/clientes). Por lo tanto, cuando escribe "Salir" en la consola, dice útilmente: "Primero debe escribir" Abajo "antes de que puedas salir"

Pregúnteme cuántas veces 1: escribí "salir" en la sesión de consola y 2: escribí obedientemente "Abajo" y luego "Salir" para poder "terminar lo que estaba tratando de hacer"

Y luego el teléfono comienza a sonar .....

LOL

12
Bob

El último lugar donde trabajé, mi compañero de trabajo tenía a sus hijos con él en la sala de servidores (¿por qué? ¡NO TENGO IDEA!).

Se aseguró de que estuvieran lejos de los servidores y le explicó a su hijo de 5 años que no debía tocar CUALQUIERA de los servidores y ESPECIALMENTE ninguno de los interruptores de alimentación.

De hecho, los tenía cerca de la puerta ... (¿puedes ver a dónde va esto ...?)

El chico no tocó ninguno de los botones de encendido del servidor ... No, eso sería demasiado fácil de explicar. En su lugar, presionó el BOTÓN ROJO GRANDE que estaba cerca de la puerta ... ¡¡¡El botón que apaga la alimentación de TODA LA SALA DEL SERVIDOR !!!

Las líneas telefónicas comenzaron a encenderse inmediatamente preguntándose por qué Exchange, servidores de archivos, etc. no estaban disponibles ... ¡Imagínese tratando de explicar ESO al CEO!

-JFV

11
JFV

Otra historia que no sucedió (uf):

Estábamos haciendo copias de seguridad incrementales religiosamente todos los días a una unidad de cinta.

Por casualidad escribimos una cinta que contenía datos para enviar a otra persona. Dijeron 'no podemos leer tu cinta'. De hecho, nosotros tampoco. O cualquier cinta de hecho.

Compramos otra unidad de cinta y contuvimos la respiración hasta que la instalamos.

Moraleja de la historia. Siempre asegúrese de probar sus copias de seguridad.

11
Matthew Farwell

Una vez tuve una pelea con el software de monitoreo APC UPS. Al ser una empresa pequeña, teníamos un par de UPS pequeños y se configuraron varios servidores para monitorearlos. La mayoría de los servidores eran Linux, pero algunos ejecutaban Windows, por lo que fueron los que se usaron porque el software APC es solo Windows.

Sin embargo, el software de APC en ese momento estaba codificado para asumir que el UPS con el que está hablando también está encendiendo la PC. Este no fue el caso para este servidor, pero descubrí que es demasiado tarde para decirle que se detenga. También desafortunadamente, el programador principal estaba demostrando el producto de la compañía a un socio: era una aplicación basada en la web, que se ejecutaba en el mismo servidor que no quería que el software APC cerrara ...

10
staticsan

Trabajo para un proveedor de servicios inalámbricos en América del Norte y he realizado algunos entrenamientos para que una persona de mi grupo ejecute las órdenes de trabajo. Me había quedado despierto las primeras noches (hacemos todo durante la ventana de mantenimiento), pero estaba bien y dijo que tenía que aprenderlo por su cuenta, así que lo dejé y dejé mi teléfono celular y el busca. Ingresé y verifiqué la configuración cuando me levanté a las 8 a.m. de la mañana siguiente.

El cambio fue que estábamos agregando un nuevo grupo de direcciones IP para BlackBerrys , el grupo que estábamos agregando era de aproximadamente 10000 direcciones. Para hacer esto, agregamos rutas en el enrutador que apuntan a la dirección del procesador en un blade que realiza todo el procesamiento de llamadas (esencialmente funciona como un proxy). Además, iniciamos sesión en el procesador y configuramos el grupo de IP, y vinculamos el grupo de IP que se utilizará para nuestros usuarios inalámbricos. Sin embargo, para las pruebas, normalmente configuramos esto en un procesador (en realidad arrancamos un teléfono y probamos todas las funciones), y luego simplemente movemos la configuración al procesador real en el que queremos.

Avancé dos semanas, y recibí una llamada de nuestro centro de control de que hubo muchas llamadas sobre algunos problemas intermitentes de BlackBerry, y los pocos BlackBerry que han visto parecen estar circulando a través de un grupo común, pero no estaban muy seguro de lo que estaba pasando Solo me llevó unos 5 minutos darme cuenta de que este era el nuevo grupo que mi colega acababa de agregar dos semanas antes. Tampoco tardó mucho en ver que el enrutador tenía dos rutas, una que iba al procesador de prueba y otra al procesador de llamadas adecuado. Siendo esto lo que era, olvidó eliminar la ruta al procesador de prueba, y superó la ruta correcta.

Esencialmente, un BlackBerry se conectaría a la red, se conectaría al proxy para obtener su dirección IP, el proxy le daría una dirección del grupo con la ruta incorrecta, y BlackBerry intentaría hablar con el RIM retransmitir, y la respuesta se enrutará al proxy de prueba y nunca volverá al usuario, lo que significa esencialmente que no hay conectividad.

Sin embargo, tuvimos suerte ya que los BlackBerry tienen el comportamiento de que si no pueden ponerse en contacto con el relé, se desconectarán/volverán a conectar a la red, pero, sin embargo, algunos dispositivos RIM estuvieron sin servicio durante varias horas hasta que pudieron volver a funcionar piscina. Pensé de nuevo, y cuando verifiqué dos veces el trabajo, solo verifiqué la configuración del proxy que era nueva para este tipo, nunca verifiqué la configuración de enrutamiento ya que este tipo estaba anteriormente con el equipo de backbone y el enrutamiento era lo suyo. ¡Uy!

Lo arreglé y lo llamé esa tarde, su día iba bien, pero empecé con lo siento, pero estoy a punto de arruinarte toda la semana. Un año después, la historia sigue surgiendo en torno a las cervezas.

8
Kevin Nisbet

Tropezar con un servidor de la torre que estaba encajado detrás de un bastidor y golpear mi cabeza en la parte posterior del enrutador Cisco principal al bajar. Por lo tanto, revela cuán holgadamente los cables de alimentación se asentaron realmente en las fuentes de alimentación en la parte frontal del Catalyst 65 .

Si. Ahora tenemos un casco enganchado en la sala de servidores. Con mi nombre en el.

8
Bill B

Le estaba dando a un nuevo administrador de sistemas un recorrido por una aplicación de Service Manager. Le dije "si alguna vez necesitara detener este servicio, haría clic en este botón, pero nunca debería hacerlo durante el día". ¡Nunca creerías lo sensible que era el botón de su mouse!

Dos minutos después, el servicio había comenzado de nuevo y nadie parecía darse cuenta.

8
Antony

Mi tía me pidió que arreglara su computadora. Dijeron que no arrancaría y ha sido así durante 2 semanas. Sospeché que era el BIOS o el sistema operativo.

Me senté frente a su computadora. Me agaché para presionar el botón de encendido. Miro hacia arriba.

El BIOS pasó. Eso es bueno.

El sistema operativo arrancó. Eso es bueno.

Moví el mouse pensando que quizás haya un problema con los dispositivos de entrada. No hubo ningún problema con los dispositivos de entrada.

Abrí su procesador de textos. Corrió.

Imprimo prueba la impresora. Impreso.

En este punto, me puse de pie y le dije a mi tía (que me estaba mirando) que la computadora no tenía nada de malo. Ella afirmó que no era así antes de que me sentara.

Ahora puedo decirle a mi familia que estoy tan bien, que puedo arreglar cualquier computadora simplemente sentándome frente a ella.

7
MrValdez

Cuando el administrador principal me contrató por primera vez como administrador del sistema ... en la primera semana recibimos un nuevo servidor Dell ... Windows Server 2003 ... era su pequeño bebé hasta que me llamaron en secreto a la sala de servidores a medianoche ¡Un sábado por la noche para limpiar numerosas instancias de malware porque estaba NAVEGANDO CON LA WEB antes de la implementación SIN ANTIVIRUS!

La limpieza de malware es algo con lo que he tenido mucha experiencia, pero como se trataba de un servidor, realicé un formateo y la reinstalé para estar más seguro.

Nunca le dije una palabra al respecto. Sabía que se había equivocado de verdad.

7
cop1152

Más de una secuencia de comandos personal que una cosa de administración del sistema, pero ...

Estaba escribiendo un script de Perl para actuar como una macro que recuperaría ahora la información de reproducción de Banshee y la ingresaría carácter por carácter como eventos de teclado usando el programa "xte". De esta manera, podría hacer que funcione dentro de los programas sin ninguna interacción especial, sería como lo escribí.

Bueno, codifiqué la cosa casi a la perfección. Decidí probarlo en algún juego al azar. La pulsación de tecla para abrir el chat fue shift + enter. Ahora para hacer esto, necesitaba que se mantuviera presionada shift, prensa enter, luego suelte shift. Lamentablemente, en mi apuro olvidé "liberar turno". Ejecuté el guión y esto condujo al efecto secundario algo divertido de que mi tecla de mayúsculas se bloqueara. Pensé "no hay problema, simplemente iré a la terminal y escribiré manualmente la línea para liberar el turno". Desafortunadamente, como todos saben, Linux distingue entre mayúsculas y minúsculas. No aceptaría el comando en mayúsculas ya que tenía que ingresarlo. No podía "contrarrestar" ni nada de eso.

Esto me llevó a una búsqueda del tesoro de cinco minutos visitando sitios web y usando el mouse para copiar + pegar letras minúsculas individuales en el terminal para formar el comando que necesitaba para desactivarlo.

7
DWilliams

No es un gran problema, pero ciertamente una mañana de 'Huevo en mi cara' hace unos 10 años. Había estado revisando el antiguo inventario de hardware y volviendo a crear imágenes de los discos listos para descargar el hardware. Tratando de encontrar la forma más eficiente posible de hacer esto, construí un CDRom con una copia de Norton Ghost y la imagen para aplicar. Encendió la máquina y, mientras estaba PUBLICANDO, coloque el CD en la unidad. La máquina arrancaría el CD y volvería a crear una imagen automáticamente. Funcionado bien.

El problema surgió cuando había estado haciendo copias del CD para poder tener más máquinas funcionando en paralelo. Terminé de grabar el último CD, apagué mi computadora de escritorio y me fui a casa por el día. Bueno, puedes adivinar lo que sucedió a la mañana siguiente. Entré, encendí mi PC y fui a hacer un café ...

Cuando regresé por alguna razón, mi máquina estaba fuera del dominio y no aceptaba mi contraseña ...

Acababa de resolver lo que había sucedido y comencé a maldecir cuando llegaron los otros chicos por el día. Sí, no me dejaron vivir eso por un tiempo.

7
Sam

En el pasado, cuando era muy verde, necesitaba instalar el software AV en la PC de mis usuarios, ya que nadie parecía tenerlo. Así que pasé un poco de tiempo descubriendo cómo hacer una instalación remota, en lugar de meter alrededor de 40 o 50 escritorios. La instalación remota funcionó perfectamente y todo parecía estar bien, hasta que varios gerentes pasaron por mi oficina para quejarse de que no podían iniciar sesión.

Resultó que algunas personas tenían Symantec AV instalado en sus máquinas, y esto no coexistía del todo con el software de McAfee que estaba usando y bloquearía las máquinas después de un intento de inicio de sesión.

Afortunadamente, era posible deshabilitar el servicio de forma remota si llegaba a la máquina antes de que intentaran iniciar sesión, por lo que logré obtener puntos para solucionarlo en lugar de tener que reconstruir todas las PC de alta gerencia ...

7
user2278
6
Rook

Hecho por uno de mis empleados ... Ejemplo perfecto de por qué claramente etiqueta sus servidores:

Envié a mi empleado a Colorado para reconstruir el servidor secundario de la base de datos MSSQL (que no tenía datos actuales). La primaria estaba activamente en uso. Probablemente pueda predecir el resto de esta historia ... Una vez allí, reinició el servidor, comenzó la instalación y volvió a formatear las unidades, solo para que lo llamara y le preguntara por qué el servidor de la base de datos primaria ya no respondía. (doh)

6
skraggy

La mía ocurrió hace solo 6 meses. Acabábamos de cambiar a un nuevo servidor para una aplicación web PHP/MySQL. Desde que pude elegir el sistema operativo, elegí el que estoy más familiarizado/cómodo: Ubuntu.

Teníamos una serie de scripts de respaldo que cron ejecutaba cada hora, diariamente, etc. La transición fue perfecta. Hubo solo unos 2 minutos de tiempo de inactividad mientras transfería la base de datos MySQL del antiguo servidor al nuevo y cambié las IP.

Sin embargo, unas semanas más tarde, estaba trabajando en MySQL en la línea de comandos y eliminaba algunos registros de prueba antiguos que ya no eran necesarios. Como soy un programador primero, sysadmin segundo, he adquirido el hábito de escribir mi punto y coma (;) primero y luego escribir el comando. Bueno, cuando estaba a punto de agregar la cláusula WHERE a mi consulta DELETE, accidentalmente presioné la tecla enter. ... ¡Uy!.

Query OK, 649 rows affected (0.00 sec)

"No es gran cosa", pensé. "La copia de seguridad por hora acaba de terminar hace 4 minutos. Puede haber 3 registros perdidos en total. Rápidamente fui al directorio de copia de seguridad y restauré. Problema resuelto.

... Entonces noté la marca de tiempo en la copia de seguridad. Tenía 17 días. No hubo otras copias de seguridad. Acababa de borrar todo lo que había ingresado en el sistema hace menos de 17 días.

Resulta que hay un error en el demonio cron de Ubuntu que hace que no ejecute un archivo de script con un punto (.) En cualquier parte del nombre. No genera un error, por lo que no hay evidencia de un problema. Simplemente se niega a ejecutarlo. Todos nuestros scripts de respaldo tenían puntos en sus nombres. Funcionaron perfectamente antes, pero no ahora.

Lecciones que aprendí:

  1. No ponga el punto y coma en la línea de comando de MySQL hasta que realmente quiera ejecutar la consulta.
  2. Verifique la marca de tiempo en sus archivos de respaldo antes de restaurarlos.
  3. Pruebe sus scripts de respaldo y asegúrese de que realmente funcionen.
6
Andrew Ensley

Hace más tiempo de lo que me gustaría pensar, era la persona técnica de la compañía y trabajé con algunos consultores instalando su aplicación. El hardware era un DEC VAX y utilizaba un servidor de almacenamiento HSC50. Los consultores tomaron gran parte del día con su instalación, y después de que se fueron, decidí hacer una copia de seguridad del disco del sistema en un disco vacío utilizando la utilidad de copia bit por bit del HSC50. Una vez que se realizó la copia y traté de reiniciar, descubrí que había invertido los nombres del disco de origen y de destino y, por lo tanto, había hecho una copia de seguridad del disco en blanco bit por bit en el disco del sistema.

Pude reconstruir VMS en el disco del sistema y reinstalar gran parte de la aplicación, pero creo que nunca funcionó tan bien. Desde entonces, si estuviera haciendo una copia/copia de seguridad/etc., protegería contra escritura el disco de origen antes de continuar. (Ahora que los interruptores de protección contra escritura ya no existen, miro el comando antes presiono Retorno).

6
JonP

Me llamaron para investigar una alerta proveniente de una máquina con Windows que indicaba que el sistema de monitoreo no tenía un archivo de licencia. Abrí el símbolo del sistema y comencé a investigar el problema y descubrí que los comandos básicos de Windows ni siquiera estaban allí.

Un administrador de sistemas que había ejecutado un script de forma remota había escrito un script que utilizaba el comando del para eliminar una carpeta especificada por una raíz y una subcarpeta con las carpetas especificadas en Variables de entorno. Si no se establecieron las Variables de entorno, se eliminó silenciosamente toda la partición.

Cuando se le dijo, el administrador del sistema se sorprendió tanto que confirmaron la acción ejecutando dicho script en su propia libreta, destruyéndola también.

Lo sorprendente fue que Windows funcionaba bien, hasta que reiniciamos el servidor. Solo el software de monitoreo tacaño se quejó.

Era el servidor secundario de Active Directory para un partido político. Ups.

5
Stuart Woodward

Agregar una regla de omisión a un firewall para acelerar algunas descargas de BitTorrent. Resulta que el sistema que usaba la regla de omisión no era demasiado estable y eliminó el firewall. Este era un cortafuegos fronterizo para la conexión a Internet de cada escuela en la ciudad. Para empeorar las cosas, el reinicio fue suficiente para provocar la muerte del disco duro del firewall. ¿Divertido? No tanto. Espectacular falla? Seguro.

4
Mark

El mío fue un esfuerzo de equipo de etiqueta.

La gerencia me indicó que registrara uno de nuestros DBA en un servidor para que pudiera hacer algún tipo de limpieza. Corrió su consulta e inmediatamente nuestros dos buscapersonas se dispararon, lo que provocó improperios de los dos.

Como resultado, la limpieza fue en realidad una caída de la base de datos, y se suponía que debía hacerse en uno de los servidores de desarrollo. Sin embargo, las instrucciones que recibí me llevaron a creer que se trataba de una tarea de limpieza menor que se suponía que debía ocurrir en la producción.

Afortunadamente, pudimos restaurar desde una copia de seguridad con una pérdida mínima de datos.

Lección aprendida: asegúrese de SIEMPRE saber EXACTAMENTE lo que se supone que debe hacer al jugar con los servidores de producción. Si hay incertidumbre, es mejor que obtengas una clarificación.

4
Bill B

Okay. Llegar & en un teclado de EE. UU., presione Shift-7. Para obtenerlo en un teclado sueco, presione Shift-6. Entonces, ¿qué obtienes cuando presionas Shift-7 en un teclado sueco? Usted obtiene /.

Hace años, los diseños suecos no eran tan comunes. Mi preferencia personal era usar el diseño de EE. UU. Un día quise eliminar un montón de archivos y subdirecciones en un directorio.

Golpee:

rm -fr *

Pero fue demasiado lento, así que rápidamente golpeé:

Ctrl-C rm -fr * &

¿O yo? Pues no lo hice. Me tomó unos segundos darme cuenta de que estaba usando un teclado sueco. Vea arriba para decodificar lo que sucedió. Y ese desastre fue un hecho.

Ese fue el día en que aprendí el comando:

dd

Logré llegar básicamente del disco a la cinta, solo que me llevó toda la noche. Al día siguiente supe que el sistema estaba a punto de reinstalarse de todos modos.

Tuve suerte, pero aprendí algunas cosas.

4
fredarin

Cuando la mayor parte de la flota de servidores todavía era Windows NT, el método remoto principal en uso era pcAnywhere. Tuvimos un error "bien conocido", que a veces los servidores se reiniciaban repentinamente cuando usaban pcAnywhere, y se informaba a los usuarios finales sobre este error bien conocido.

El error fue que pcAnywhere (al menos la versión que estábamos usando) tenía un botón "reiniciar Host" al lado del botón "desconectar del host". Entonces, de vez en cuando ...: D

4
marty

VNC en un servidor Win 2k a 200 millas de distancia, fue a agregar una dirección IP, así que ... haga clic derecho en el icono de red en la bandeja del sistema, haga clic en 'Desactivar' no 'Propiedades' - DOH! ... Solución .... Sube al auto. ¡No feliz! ¡Ojalá tuvieran un 'estás seguro' en esa opción del menú!

Miguel

4
Mike McClelland

Verano de 2002.

Inadvertidamente desplegué IE 6.0 con un reinicio forzado a 16,000 usuarios en el medio del día.

En verdad, entendí mi error y escribí el más rápido odadmin apaga todo (Comando de Tivoli para detener todos los servidores de despliegue).

3
Shawn Anderson

En Linux y FreeBSD hostname -s "mostrará el nombre corto del host. Este es el nombre del host cortado en el primer punto".

En Solaris 9, hostname -s establecerá el nombre de host para que sea '-s'.

Entonces, mi compañero administrador ejecutó un script para auditar todos nuestros 120 sistemas, incluidos 10 servidores de base de datos Oracle de misión crítica que se ejecutan en Solaris 9.

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

Todos nuestros servidores Oracle fallaron instantáneamente. La velocidad de este fracaso fue realmente sorprendente. Nos tomó unos 20 segundos recuperarnos de este error, pero ya era demasiado tarde. Todo estaba abajo.

La ironía es que nuestro centro de datos sufrió una importante falla de energía solo unos días antes, y estábamos actualizando nuestra hoja de cálculo de "apagado/encendido" para asegurar una recuperación más rápida de cualquier falla de energía futura.

3
Stefan Lasiewski

No yo, sino alguien con quien trabajo. Crearon una política en el servidor AV que contenía un * en el campo de proceso. En términos simples: no permita leer, escribir, ejecutar en ningún proceso que contenga el nombre *.

Esta política fue replicada en 1,500 servidores, lo que a su vez apagó RDP y cualquier otro proceso. Solucionarlo significaba montar cada disco duro del servidor uno por uno y eliminar la política. 48 horas con un equipo de 15.

3
stuart Brand

Soy programador, por lo que todos mis errores pertenecen a Stack Overflow. Sin embargo, a continuación se presentan algunos de los errores del administrador del sistema que he presenciado.

  1. Revocar los permisos de inicio de sesión de TODOS los usuarios en un dominio de Windows NT. (Aparte del administrador incorporado en el PDC, lamentablemente solo el contratista que configuró el dominio conocía la contraseña, y se habían ido hace mucho tiempo) En realidad no sé cómo se logró esto. Sé que tuve que sentarme y conversar con mis colegas desarrolladores durante unas horas.

  2. Eliminar accidentalmente los servidores de miembros OU . Fueron otras horas de conversación mientras se realizaba una restauración de la cinta.

  3. Nuestro administrador tenía la intención de dar permiso a todos los administradores de dominio para usar el acceso a CD y disqueteras. (Usamos SecureNT para controlar el acceso a los medios extraíbles en ese momento). Lamentablemente, obtuvo la membresía del grupo al revés y, en su lugar, también otorgó a todos los usuarios de medios extraíbles derechos de administrador de dominio completo. Encontré esto porque algunas tablas aparecieron en una base de datos SQL de producción que había sido creada por un usuario que no debería haber podido. Cuando le dije al administrador en cuestión, disfruté viendo cómo cambiaba su rostro, no, esa es la forma correcta, hasta, oh ****. Afortunadamente no hubo daños graves.

3
pipTheGeek

Mi primer gran accidente fue cuando estaba escribiendo un pequeño panel de administración de SVN en nuestro servidor de desarrollo, un software completamente inseguro que solo se usaba para actualizar el sitio web interno de "Desarrollo".

A veces, el repositorio SVN se corrompía, así que escribí un botón que llamaría a un archivo PHP, que limpiaría todo el directorio SVN solicitado, y se vería así).

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

Para aquellos que no lo ven, escribí incorrectamente "$ directorio" en Shell_exec, lo que provocó que el sistema ejecutara "Sudo rm -Rvf /" ... Al principio pensé que la página web se estaba demorando en eliminar Todos los archivos en el repositorio. Después de unos 10-15 minutos descubrí que había destruido más de la mitad del sistema de archivos.

Ups.

2
grufftech

La historia del antiguo empleador es genial. Algunos de los detalles se cambian para proteger a los inocentes. Tuve un problema con el empleado, llámalo Fred, que había tenido muchos problemas de productividad, pero parecía haberse redimido y había recuperado algunos privilegios. El único problema fue que, cuando se restauraron sus privilegios, un error en un script de aprovisionamiento le dio algunos privilegios adicionales.

Estaba en medio de un gran proyecto, así que le pedí a Fred que empaquetara una revisión de Windows que era necesaria para una aplicación. (Esto fue en los días previos al bláster cuando la gente no parcheaba tan religiosamente como lo hacen hoy). Así que Fred realiza una prueba en nuestro laboratorio y todo funciona bien.

Fred luego hace un par de preguntas:

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

Entonces, ¿qué pasa después? Configura un trabajo con nuestra aplicación de distribución de software para Push to everyone, e incluso tiene la amabilidad de marcar las casillas de cada plataforma que admite el producto. Luego, establece la hora de inicio para las 2AM, como en la 2AM que tuvo lugar hace aproximadamente 12 horas.

¿El resultado? Todo se reinicia e intenta instalar algún parche de tiempo de ejecución VB5. Aproximadamente a las 2:45 PM un viernes por la tarde. Todo.

¿Todo? ¿Como 40,000 PC? Si. 3.000 servidores de Windows? Si. ¿Cajas de 300 HP, Sun e IBM Unix? Si. ¿Un clúster AS/400? Si.

Lo único que no se reinició fueron los DC de Windows, porque los chicos de AD desactivaron nuestra aplicación por alguna razón. Santa pesadilla Después de una semana de limpieza, no podía creer que todavía estuviera empleado.

El remate? Fred consiguió un gran ascenso en un trabajo donde ya no podía lastimar nada.

2
duffbeer703

Quizás más un pedo cerebral nocturno que cualquier otra cosa.

Uno de los desarrolladores tenía problemas para ejecutar un Java profiler en un cuadro de Solaris. El profiler se quejaba de que había dos copias de Libc; una en /lib y uno en /usr/lib. Entonces, después de algunos lds, cambiamos el de /lib ya que todo apuntaba a /usr/lib, o eso dijeron.

Pero de repente nada funcionó. No ls, no cd, no cp o mv. Después de unos 20 minutos de 'oh mierda, oh mierda' descubrimos que uno de los desarrolladores tenía una copia de Emacs actualmente en ejecución en esa caja y pudimos abrir la copia de seguridad /lib copia de Libc y vuelve a escribirla con el nombre original. ¡Y voilá! Todo funcionó. Lección aprendida; ¡deja Libc donde quiere estar y no hagas cambios en las solicitudes de desarrollador a las 2 a.m.!

2
beggs

Tuve uno no hace mucho tiempo. Durante algunas implementaciones de Oracle ODBC bridge), tuve que modificar la ruta en aproximadamente 500 publicaciones de usuarios.

Es una operación bastante simple, de verdad. Lástima que me olvidé de esas citas. La gente comenzó a sonar después de que tenían algunos mensajes extraños confusos (el error de instalación ODBC)), y parecía pensar que reiniciar la máquina sería lo que necesitaba.

Por supuesto, alguna otra instalación anterior PREPENDÍA (!!!) alguna ruta de archivos de programa en la variable del sistema (con espacios y todo, sin comillas), por lo que la nueva ruta se detuvo justo allí, en c:\Program (por supuesto, la existencia de% ProgramFiles% permaneció completamente ignorado). Sin sistema, sin sistema32, sin Shell. Así que tampoco hay secuencias de comandos de inicio de sesión.

Las personas que reiniciaron ya no tenían acceso a la red, y ningún script automatizado podía reparar el daño. Por supuesto, tan pronto como acudí a un usuario que se quejaba, miré a mi alrededor y comprobé el camino, tuve esa ... sensación de hundimiento.

En aproximadamente 30 minutos, tenía otro script, con los valores de ruta más estándar, listo para ser enviado por correo a todos (el correo electrónico aún funcionaba). Los usuarios incluso volvieron a llamar para asegurarse de que el parche era real, ya que no se utilizan para enviar exe crípticos con razones extrañas para aplicarlos, y la mayoría de ellos ni siquiera sabían lo que estaba sucediendo.

La primera versión era desordenada (un nuevo punto y coma en cada ejecución), pero registraba todos los posibles valores de ruta disponibles, por lo que rápidamente tuve datos con posibles rutas, así que solo tuve que crear algo inteligente para verificarlos todos, y obtener la ruta muy bien en su lugar.

En general, duró solo unos 45 minutos, y por suerte fui yo quien puso todo de nuevo en orden. Pero aún así, cuando aparece un camino corrupto ahora, todavía estoy listo para asumir la culpa;)

2
Berzemus

La mejor fue cuando nuestro servidor de respaldo estaba en el limbo administrativo: mi jefe estaba "debatiendo" si debía permanecer en la oficina, fuera de la sala de servidores (y no hacer copias de seguridad por alguna razón) o si debe instalarse en la sala del servidor para ahorrar grandes cantidades de ancho de banda. Me parece recordar que este estado de limbo existió durante varios meses.

Nuestro servidor web tenía una matriz RAID 5 para el almacenamiento de sitios web. Parece que había estado funcionando en modo degradado (sin informarme por razones desconocidas o que no recuerdo) durante algún tiempo antes de que fallara la segunda de las tres unidades. Tengo que pasar toda la noche volviendo a armar el servidor. Nuestros clientes no estaban contentos de que sus sitios web hubieran desaparecido y necesitaran restaurar desde sus propias copias de seguridad. Especialmente los que no tenían sus propias copias de seguridad.

Las preguntas que me hizo mi jefe fueron: "¿Cómo podría una matriz RAID fallar así? ¡Pensé que no se suponía que debían hacerlo!" y "¿Por qué no teníamos copias de seguridad de nuestro servidor web?"

Sin embargo, la lección no había sido ignorada. Mi jefe fue cooperativo cuando sugerí que las actualizaciones de nuestro servidor de correo deberían incluir una matriz RAID 1 con un repuesto dinámico (en lugar de discutir conmigo sobre el costo adicional, que normalmente habría hecho). Y, por supuesto, el servidor de respaldo estaba haciendo su trabajo correctamente en poco tiempo.

2
Ernie

¿Qué tal aprender la diferencia entre Exchange Server 2007 "Eliminar buzón" y la función "Desactivar buzón"? ¿Especialmente cuando elimino el buzón antiguo de todos para tratar con una base de datos corrupta?

...

Restaurar en un servidor de intercambio ... no es divertido ... Tener que restaurar un servidor de intercambio Y Active Directory ... no es divertido.

Haciéndolo a las 11:00 de la mañana del viernes ... No tiene precio.

2
IceMage

Estaba tratando de liberar algo de espacio en la partición primaria del servidor web RedHat 5 del sitio. Era relativamente nuevo en Linux pero había estado usando DOS por años.

Logré mover toda la carpeta/bin a otra partición, sacando el sitio web de producción y dejándome sin comandos de sistema accesibles. Me asusté, no podía renombrar, copiar, mover, nada porque había movido todos esos útiles ejecutables.

Afortunadamente pude usar un disco de arranque y deshacer mi trabajo.

2
Darth Continent

Era nuevo en RAID 5 y todavía estaba aprendiendo cómo funcionaba. En ese momento yo era el único chico de TI en una empresa muy pequeña. Todos los archivos a los que todos accedieron se almacenaron en un solo servidor. El servidor tenía poco espacio y solo tenía 3 unidades en la matriz RAID, así que pensé que agregar un cuarto aumentaría el espacio y la capacidad de respuesta. Lo hice durante el horario comercial. No había aprendido el concepto de mantenimiento fuera de horario.

La matriz comenzó a reconstruirse, y dijo que se haría en 36 horas. Pensé que era demasiado tiempo. Encontré un control deslizante que controlaba la prioridad de reconstrucción, y estaba configurado en la configuración más baja. Lo puse a medio. El tiempo bajó a 8 horas. Las luces del disco duro parpadeaban un poco más rápido, pero todavía pensaba que todavía era demasiado tiempo para solo 80 GB de datos. Entonces puse la prioridad en alta. Las luces del disco duro se encendieron y pensé "¡más bien así!" Entonces la GUI que estaba usando dejó de responder. Se conecta a la caja de forma remota. Traté de recuperarlo, pero no pudo encontrar el servidor.

Empecé a escuchar a personas que se quejaban en el pasillo de que no podían acceder al servidor. Fui al servidor para iniciar sesión para ver qué estaba pasando. La pantalla en blanco tardó 5 minutos en cambiar al fondo. Pasaron otros 5 minutos antes de que apareciera el mensaje de inicio de sesión. Cada pulsación de tecla tardó 5 minutos en registrarse. Había establecido una prioridad tan alta que el servidor no respondía a nada. La matriz tardó 2 horas en reconstruirse. Afortunadamente fue una hora antes del almuerzo, por lo que a nadie realmente le importó tanto. Mi gerente en ese momento era una mujer genial y dijo que no era gran cosa. Sin embargo, el ingeniero jefe de diseño me dio una mirada mezquina. Estuve sudando balas durante 2 horas. Lección aprendida.

2
Joseph

Un empleado se quejó de que su computadora portátil era lenta, así que verifiqué la fragmentación del disco duro y fue (y es hasta el día de hoy) lo peor que he visto. Los intentos de desfragmentar el disco fueron infructuosos porque no había suficiente espacio libre. Traté de limpiar archivos temporales (no estoy seguro de por qué no solo moví cosas al servidor temporalmente) y eliminé estúpidamente todo su Outlook.pst pensando que era una copia de seguridad de su correo electrónico y no su correo electrónico real. Me perdonó, pero nunca me dejó olvidarlo.

(Esto sucedió hace muchos años, poco después de graduarme de la universidad. Ahora soy mucho más competente).

2
Scott

Muy estúpido error. Estaba escribiendo un script en mi estación de trabajo Linux que procesaba varios archivos, pero no importaba qué tipo de archivos fueran, siempre que fueran muchos archivos. Entonces decidí que era una buena idea copiar /etc a un directorio en el que estaba haciendo mis pruebas. Cuando las cosas salieron mal, borré la copia y copié /etc a mi directorio de prueba nuevamente. Eso estuvo bien, por un tiempo, y luego escribí

rm -rf /etc 

en vez de

rm -rf etc/  

OK, no hay nada de qué preocuparse, todavía podría hacer cosas en mi estación de trabajo y pensé que podría revivirlo copiándolo de otra estación de trabajo, o algo así. O bien, reinstale al final del día. Primero, beba algo y, debido a la política corporativa, bloqueé mi pantalla. Maldición, necesito mi contraseña para desbloquear y eso está en/etc/.....

Estúpidos errores:

  • haciendo demasiada raíz (tenía una buena razón para ello O :)).
  • mecanografía /etc en lugar de etc/
  • utilizando /etc para fines de prueba
2
blauwblaatje

Hubo un momento en que eliminé accidentalmente al usuario "bin" en un cuadro de Unix. Por supuesto, eliminar un usuario hace que también se elimine su directorio de inicio.

¿Puedes adivinar cuál es el directorio de inicio de bin?

/compartimiento

1
Barry Brown

Hace un par de compañías teníamos una caja de Windows NT 4 como el servidor principal que ejecutaba todo, como respaldo tenía un disco duro duplicado.

Eliminé accidentalmente algunos archivos importantes, no hay problema, solo reinicie la caja, seleccione el disco 2 en el menú SCSI y volveremos a ejecutar la copia en menos de un minuto.

Luego comencé el comando para reconstruir la unidad espejo. Resulta que aunque Windows ahora tenía nuevas unidades C: y D: el software inteligente de duplicación no se dejaría engañar por eso. Usó los números de identificación SCSI para el origen y el destino, y felizmente copió 1-> 2.

Gracias Adaptec!

1
Martin Beckett

Al final de la semana, casi todos saliendo del edificio, entro en la sala del servidor para cargar nuevas cintas en el cambiador automático, para la copia de seguridad completa de todo el fin de semana. Creo que el aire acondicionado está demasiado frío y apáguelo (la sala del servidor era solo una sala con aire acondicionado montado en la pared, sin fondos para nada grave). Así que cargo las cintas, me aseguro de que la TBU lea bien los códigos de barras y salgo.

Al día siguiente, me levanto por la mañana, con resaca (¡hey, es fin de semana!), Miro mi teléfono y veo un montón de SMS mensajes "$ server se está cayendo". Luego otro "UPS principal cayendo".

Agarro las llaves, conduzco a las oficinas y abro la sala de servidores, para encontrar que hay alrededor de 60c allí, y todo el equipo está apagado.

Terminé arrastrando algunos ventiladores para expulsar el aire caliente, incluso antes de que pudiera comenzar a funcionar la CA, sin mencionar el UPS y los más de 40 servidores y equipos de comunicaciones. Y pasar el fin de semana en la oficina, por supuesto. Y agradeciendo a todas las deidades por las unidades UPS inteligentes que pueden derribar todo muy bien si la temperatura ambiente es demasiado alta. Siempre tengo una sudadera con capucha desde entonces, y nunca apago el aire acondicionado

1
dyasny

Hace más de diez años, estaba trabajando en un proyecto que requería un proxy SOCKS. Había estado usando un programa llamado WinGate que, además del proxy SOCKS, proporcionaba una pequeña y agradable funcionalidad de puerta de enlace de Internet con NAT, DHCP y algunas otras sutilezas. Esto fue antes de que Windows compartiera la conexión a Internet, por lo que WinGate le permitió compartir su módem de acceso telefónico con su red Ethernet.

Instalé el software y comencé a trabajar en la funcionalidad del cliente SOCKS. Más tarde ese día, perdimos la conectividad a Internet. De repente, simplemente se detuvo y nadie pudo acceder fuera de la empresa. Llamamos a nuestro ISP y todo se veía bien en la conexión. El enrutador funcionaba bien. Simplemente no pudimos averiguar qué salió mal. Entré en un momento dado que tenía algunos conocimientos de TCP/IP, pero no avancé.

Al día siguiente, nuestro técnico de TI descubrió que el servidor DHCP había dado la dirección del enrutador a la máquina de alguien, y todos la usaban para la puerta de enlace predeterminada que no iba a ninguna parte. Más tarde ese día, nuestro técnico de TI entró en mi oficina y le pregunté: "¿Entonces descubriste quién dio la dirección IP incorrecta?" Él dijo: "¡Sí, eres tú!"

WinGate había omitido ejecutar un servidor DHCP y había entregado la dirección del enrutador al primer cliente cuya dirección anterior había expirado. Estuve bastante rojo por un tiempo.

1
David Smith

Al principio, cuando era joven, intentaba ser 'útil' e intenté copiar 250 MB de datos en una línea de 128 kbit/s en 86 sitios diferentes al mismo tiempo ... durante el horario comercial. Mientras hacía esto, escuché a la gente preguntar por qué todo tomaba tanto tiempo.

No hace falta decir que maté las transferencias y (por suerte) ¡nadie sabía que era yo!

1
JFV

Construimos sistemas IVR llave en mano para clientes en cajas Unix. Una vez los desarrolladores tenían todo su código en/devel. Me pidieron que eliminara los directorios y la caja de desarrollo y llevara los servidores al aeropuerto un domingo por la tarde (¡mi día libre!). En mi apuro, eliminé/dev/*. Al instante vi mi error, me senté y reflexioné por un minuto. No estoy seguro de si el sistema moriría si el kernel no tuviera ganchos para los dispositivos del sistema, así que miré el directorio/dev en una máquina idéntica y en orden hice mknod [c | b] mayor menor para restaurar las unidades de teclado, tty, scsi, fd0 y null luego hicieron un disquete en la otra máquina/dev y lo montaron y copiaron localmente para obtener el resto.

Todavía no tengo idea de lo que hubiera pasado si hubiera dejado las cosas en paz, pero estoy bastante seguro de que habría sido infeliz al reiniciar :)

Lección aprendida: el directorio de desarrollo no se llama/devel.

1
schemathings

Esto sucedió cuando recién comencé mi primer trabajo de soporte fuera de la universidad, me conecté al servidor 2003 de un cliente tratando de acceder a una de las máquinas del usuario después de que se quejaron de los problemas de conectividad.

Le expliqué algunos problemas básicos y noté que tenía una IP estática, así que comencé a hablarle para configurar esto en DHCP. Abrí las propiedades de la conexión LAN en el servidor para usarlas mientras le explicaba qué hacer. Después de que intentara configurarlo de nuevo en DHCP, todavía tenía una IP estática, por lo que le pedí que deshabilitara la conexión y la volviera a habilitar.

Ahora, en este punto, estaba haciendo todo lo que le estaba diciendo en el servidor sin cambiar realmente ninguna configuración, hasta el momento en que le pedí que haga clic derecho en la conexión LAN y presione desactivar, lo que luego procedí a hacer también.

Me llevó tal vez medio segundo darme cuenta de lo que acababa de hacer.

Tomó tal vez 10 minutos para que los otros ingenieros dejaran de reírse de mí antes de que uno de ellos tuviera que conducir durante una hora para volver a habilitar el NIC en el sitio de los clientes.

1
Darren Mac

Solía ​​cuidar un montón de servidores de bases de datos, cada uno con un ciclo de desarrollo y prueba bien definido. Nuestra función era implementar los cambios que los desarrolladores proporcionaron, utilizando su documentación de su entorno de prueba en el entorno de prueba del cliente para la prueba del cliente antes de ponerlo en funcionamiento. Como parte de eso, el entorno de prueba del cliente se creó a partir de la copia de seguridad más reciente del entorno en vivo.

Todo esto estaba perfectamente documentado, junto con el proceso para llevar el cambio al entorno en vivo después de que el cliente había firmado el cambio.

Tuvimos un nuevo comienzo en nuestro equipo y después de que estuvo con nosotros durante un par de meses, lo dejamos participar en una serie de ciclos de cambio hasta que una noche fatídica lo dejamos hacerlo él mismo. La prueba del cliente se realizó sin problemas y el cliente felizmente firmó el cambio.

El nuevo comienzo hizo exactamente lo que había hecho cada vez que introdujo el cambio en el entorno de prueba, confiando en que no necesitaba seguir la documentación que el resto de nosotros hicimos. Paso (1), reconstruir desde la copia de seguridad anterior ...

A la mañana siguiente, el cliente notó que faltaba el trabajo del día anterior y no nos llevó mucho tiempo descubrir qué había sucedido. Afortunadamente, las bases de datos tenían habilitado el registro de cambios, por lo que pudimos recuperar toda la actividad. El nuevo comienzo al menos aprendió a valorar la documentación y seguirla en el futuro.

1
Cry Havok

La semana pasada me pasó una buena nueva.

Hice que uno de mis muchachos construyera un servidor DNS temporal para una plataforma de prueba que estamos construyendo, les pedí a nuestros muchachos de DNS que actualizaran un dominio de prueba particular para apuntar a este nuevo servidor DNS temporal, pero el tipo actualizó el registro en vivo, no el de prueba. .

De repente, este servidor (afortunadamente una caja nueva, por lo que es una especificación razonable) que atiende a casi todas las solicitudes de DNS para casi 5 millones de usuarios: ¡400 millones de solicitudes el primer día! - Afortunadamente, el TTL fue solo 24 horas, por lo que ahora está casi agotado.

1
Chopper3

Dimensión totalmente diferente, pero sigue siendo un accidente del administrador del sistema.

Lo siento: debes entender algo de jerga italiana para entender esto. No se puede traducir. Necesitas saberlo de memoria

Me pidieron que arreglara algo en un servidor Solaris en Napoli, Italia. Necesitaba la contraseña de root, y no hablaba mucho italiano en ese momento. Los muchachos parecían reacios a decirme qué era. Finalmente uno de ellos medio susurró:

- sticazzi

Yo dije: Ajá, 'sticazzi'. ¿Cómo se deletrea eso?, y le dio un pedazo de papel + bolígrafo.

Un año después me encontré M.*o B.* otra vez (¡Hola! - si lees esto). En ese momento mi italiano era mucho mejor. Le dije que ahora sé algo más de italiano.

Esa fue una risa dura.

La moraleja de la historia: Si necesita pedir la contraseña de root en un idioma que no conoce, una vez que se le dé, ría, sonroje y parezca insultado al mismo tiempo.

1
fredarin

Todos 'rm -rf /' en algún momento accidentalmente. El mío estaba tratando de eliminar algunos de los archivos adicionales en mi directorio de inicio 2 días antes de que mi última asignación de estructuras de datos se debiera.

Profesionalmente, he sido lo suficientemente capaz como para no tener ningún desastre catastrófico hasta ahora.

1
sclarson

Esto no me sucedió, pero supongo que es una historia realmente agradable.

Estos tipos estaban trabajando con uno de esos viejos servidores Solaris de torre completa que, como sé, tenían bases de datos para varias bases de datos Informix que tenía esta compañía. Esta era una empresa de servicios básicos, por lo que puede imaginar cuántos datos significan.

Hubo un punto en el que varias configuraciones a través de servidores se copiaron en un disquete y luego se pasaron de un servidor a otro. Después de trabajar con un servidor, simplemente expulsarían el disquete y pasarían al siguiente.

Acompañado por otra persona en el grupo sysadmin, este chico estaba trabajando en estas configuraciones mientras hablaban de cosas aleatorias. Terminó su paso, así que presionó el botón para expulsar el disquete.

- "¡ESPERA! ¡No sueltes el botón!"

Cuando vuelve a mirar, presionó el botón de reinicio por error y no el botón de expulsión. En el momento en que soltó ese botón, todo el sistema de base de datos de la compañía se apagaría de inmediato. (Pensé que estos botones eran instantáneos ... pero así es como va la historia).

Entonces, cada administrador de sistemas detiene lo que está haciendo para llamar a los gerentes de departamento y "decirle a todos que cierren la sesión del sistema. Ahora". mientras este chico mira todo lo que sucede conectado a un servidor por su dedo.

1
Alpha

Al configurar una dirección IP estática en /etc/network/interfaces en un cuadro de Debian, alguien accidentalmente cambió las direcciones IP en la línea de dirección IP y la línea de puerta de enlace.

¿Adivina qué sucede cuando "robas" la IP del interruptor central?

1
prestomation

Oh, un día eliminé una base de datos PostgreSQL sin querer y la recuperé de los archivos de registro;)

0
maciek

Afortunadamente, pude recuperarme fácilmente de lo que estoy a punto de compartir contigo. Entonces has oído hablar de los infames

rm -rf /
deltree/y/s/b \

Mi problema fue que escribí esto y supe que estaba mal, así que fui a presionar la tecla de retroceso, ¡pero gordo lo toqué y presioné la tecla Intro! Me tomó literalmente solo 2 segundos darme cuenta de lo que había hecho, así que furiosamente comencé a presionar ctrl-c repetidamente para abortar la operación. Cuando lo detuve, la mitad del sistema de archivos ya no estaba.

¡Copias de seguridad al rescate, mis amigos! Aparte de un reinicio, no hubo otro tiempo de inactividad. En cierto sentido, tuve mucha suerte ese día porque tenía excelentes copias de seguridad.

0
jftuga

En mis primeros tiempos de administración del sistema, inventé un nuevo método para hacer un proceso de inventario (inventario) para nuestras tiendas minoristas. Tomé muchas computadoras portátiles y conecté escáneres de códigos de barras e hice el proceso diez veces más rápido de lo normal como cuando lo hicimos escribiendo todos los artículos con lápiz en papel. También compré algunos terminales de mano Symbol PDT DOS. Para extender la vida útil de las baterías para los terminales Symbol, hice mis propios paquetes de baterías y los cables conectados manualmente. Esa noche y a la mañana siguiente estaba muy orgulloso de mí mismo y estaba orgulloso como un pavo real caminando por la oficina diciendo lo inteligente que era.

La pesadilla comenzó cuando estaba enviando datos al servidor para hacer un cálculo y comparación de stock y listas. Uno de los dispositivos Symbol con un paquete de batería adicional se había encendido porque uno de los cables había caído y el dispositivo se había quedado sin energía durante mucho tiempo.

Ahora todo el trabajo de alrededor de 100 empleadores cayó al agua. ¿Cuál es el propósito de 13 o 15 dispositivos y su lista si no los tuviera todos? ¿Cómo podría saber qué falta de inventario?.

Para describir más de cerca mi desastre, solo tuvimos unos pocos días libres en el año. Es cuando cerramos nuestras tiendas y hacemos un inventario, y ese evento le cuesta a nuestra empresa mucho dinero y esfuerzo.

Por suerte para mí, nuestro director y chef de ese nuevo juicio ha sido razonable y aceptó las listas de inventario, ya que estaban en la computadora para ese año.

Después de eso, siempre hago dos copias de los datos mientras el trabajo aún está en progreso y justo después de que terminemos el proceso de inventario y, por supuesto, ya no me jacto.

0
adopilot

Soy un administrador de sistemas novato/aficionado con solo 30-40 sitios alojados en mi servidor, así que esto no fue tan malo. Estaba eliminando los permisos de ejecución en todos los archivos en el directorio/bin/xxx y todos comenzaron con.

Entonces, tomando la acción obvia, corrí

chmod -R a-x .*

Guau. Cuando elimina los permisos de ejecución en su directorio bin, es bastante difícil de limpiar. Los técnicos del centro de datos tuvieron que arrancar en un CD en vivo para solucionarlo. La mejor parte fue que tuve que explicarles cómo solucionarlo. La peor parte es que todavía sabían lo suficiente como para reírse de mí: P

0
Brandon Wamboldt

En los primeros días de Internet, ejecuté todo en los servidores SGI Challenge S. En un momento, sin mi conocimiento, el "departamento de arte" ordenó un servidor de impresión de representación de demostración de IKON. Caminamos en una mañana, Challenge actuando de manera divertida, el administrador llama a la sala de servidores, pasamos por diagnósticos de rutina, etc. Finalmente, digo que TIENE QUE SER la fuente de alimentación. Por supuesto que no tenemos repuesto. Regreso a la oficina principal - veo la máquina de préstamo y me doy cuenta - también es una SGI - ábrela, desenrosca la fuente de alimentación, reinicia el servidor - ¡bingo! Pedimos un repuesto de la noche a la mañana, el representante aparece en la mañana para preguntarnos cómo nos gusta la demostración, tenemos que hummada hummada durante 30 minutos hasta que FedEx aparezca y volvamos a cambiar las fuentes de alimentación y saquemos la caja de demostración por la puerta. Todo en un día de trabajo.

0
schemathings

Hace mucho tiempo, decidí cambiar el punto de montaje de mi partición de datos. Así que creé un nuevo directorio, cambié el punto de montaje en/etc/fstab y eliminé el directorio en el que estaba montado anteriormente.

La cuestión es que solo me di cuenta de que las particiones todavía estaban montadas en el directorio anterior cuando nautilus me mostró una barra de progreso (para lo que debería ser una eliminación de 4Kb). Afortunadamente pude cancelarlo antes de que se hiciera un gran daño, pero perdí algunos archivos.

0
Flávio Amieiro

Durante el mantenimiento en una ubicación conjunta, saqué nuestro cable de alimentación DNS principal. Estaba reemplazando el secundario en ese momento y debí haber tirado del cable antes de cerrar el estante. Todos nuestros sitios comenzaron a caer rápidamente y tuve que volver a la ubicación conjunta para volver a conectar la estupidez.

0
Snipper

En mi primera tarea de instalación (hace muchos años, en la era de DOS) borré accidentalmente casi todos los archivos del sistema y la mitad de los archivos de aplicación en la computadora que pertenece al director de la institución pública. Pero no fue mi culpa. Intento eliminar archivos no importantes en la carpeta C:/TEMP para liberar espacio. Eliminar comienza ... después de unos momentos veo algunos nombres familiares de la raíz y la carpeta de DOS desplazándose hacia arriba en la pantalla ... Golpeando con fuerza Ctrl + Break ... pero demasiado tarde ...

Esa fue la forma más difícil de aprender cuál es el problema de los archivos con enlaces cruzados en el sistema de archivos FAT.

0
miHost

Tenemos una instalación de pruebas en frío para nuestros ingenieros en el norte de Minnesota. Hace unos 10 años, el T1 que teníamos allí murió. Habíamos movido los servidores de esa instalación a nuestro centro de datos principal porque habíamos instalado la línea más rápida, por lo que casi todo era inútil allí. Descubrí que algún agricultor en el centro de Minnesota había atravesado la fibra con algún equipo agrícola. No estábamos muy contentos de que la fibra fuera incluso accesible para ese equipo y no estuviera enterrada mucho más profundo ...

0
squillman

Imagen de una taza de café. Es una taza llena, con azúcar. Imagínelo fuera de lugar en la bandeja de teclado retráctil de un estante. Un estante lleno de servidores. La bandeja se empuja de alguna manera dentro del estante. La copa entra en el estante y luego se cae.

Fue mi culpa, y yo era un administrador experimentado para entonces, así que no tengo excusas. Había un baño cerca y pude limpiar la mayor parte del desorden con toallas de papel. Afortunadamente, no entró suficiente café dentro de los servidores, así que los apagué y los limpié bien. Solo 400 usuarios afectados. ¡Uf!

Luego hubo otro accidente, llamémoslo así, que le sucedió a un amigo mío. Ha dedicado los últimos 10 años a construir su propia compañía. Tiene ~ 15 empleados, y todos los datos de la compañía estaban en este servidor. Esto incluía todos los proyectos pasados ​​y presentes, muchos datos de clientes, información que había sido contratada para mantener a salvo, toda la información de contacto, etc. Todo bien encriptado con LUKS. Lo había estado molestando durante mucho tiempo para que comenzara a hacer copias de seguridad, pero nunca lo hizo. Demasiado ocupado, sin fondos, se entiende la idea. Estaba seguro de que su RAID1 lo salvaría. Su último respaldo fue de 8 meses. Ese también era el tiempo de actividad de su servidor. Había cambiado su contraseña de LUKS justo antes del último reinicio, 8 meses antes de esto. Ahora reinició su servidor y luego se dio cuenta de que no había escrito la nueva contraseña y no la recordaba. Todo lo que podía recordar era que era muy largo y tenía varias palabras aproximadamente ordenadas de alguna manera con algún tipo de mayúscula y posiblemente símbolos incorporados.

Puede imaginar el grado de desmoralización entre sus empleados y la furia de los clientes que tuvieron que reenviar su información para su procesamiento, por lo que aprendieron que sus datos no estaban disponibles "temporalmente". Para resumir, me llevó alrededor de 40 horas de trabajo, 14 días de tiempo de ejecución y un programa especializado para generar y probar más de un millón de contraseñas para finalmente encontrar su contraseña LUKS.

0
joechip

Hace varios años, nuestro administrador de iSeries en ese momento estaba haciendo una limpieza en el área donde nuestros servidores de IBM iSeries estaban sentados en la sala de computadoras. Esto fue alrededor de las 8:30 de la mañana. Justo cuando comencé a seguir con lo que sea que estaba trabajando en ese momento. La pantalla se quedó en blanco unos segundos después, las llamadas telefónicas comenzaron a llegar.

Para averiguarlo, cuando movió una mesa, el cable de alimentación estaba envuelto alrededor de la pierna lo suficiente como para que saliera cuando movió la mesa.

Aproximadamente dos horas después de que el sistema se recuperara del apagado, las personas pudieron volver a trabajar.

0
Mike Wills

Tuvimos algunos problemas hace unos años. A media mañana, los usuarios comenzaron a informar muchos errores sobre el bloqueo al acceder a nuestra aplicación alojada en SQL Server. La aplicación se detiene por completo: nadie puede hacer nada. En lugar de tomarse el tiempo para descubrir qué lo está causando, hacemos un reinicio de emergencia y todo comienza a funcionar nuevamente. Luego empiezo a revisar los diversos registros para ver qué podría haberlo desencadenado, y justo antes de que todo se desmoronara, encuentro una transacción abierta con nombre en la tabla principal sin un COMPROMISO correspondiente.

Resultó que mi colega había escrito algo de SQL en el Analizador de consultas para corregir algunos datos erróneos en la tabla principal, y lo había colocado dentro de una transacción. Pero, en lugar de simplemente presionar F5 para ejecutarlo, resaltó todo y luego presionó F5. Excepto que no había bastante resaltado todo ... se había perdido el final en el que REALMENTE COMPROMETIÓ la transacción ... dejando la mesa cerrada.

0
MartW