Querétaro

La caída de Microsoft y las lecciones aprendidas

La falla se multiplicó en millones de equipos en todo el mundo que se vieron imposibilitados para realizar sus funciones

pantalla azul
Fallas. La “pantalla azul de la muerte” afectó a las computadoras. / Cortesía

Entre el 18 y 19 de julio de 2024, una actualización defectuosa del Software Falcon de la empresa CrowdStrike provocó un colapso global en sistemas Windows, lo que afectó a millones de dispositivos y revelando vulnerabilidades críticas en la gestión de actualizaciones y seguridad informática.

Al comienzo este incidente se le atribuyó a la empresa Microsoft, ya que tras una actualización las computadoras con sistema operativo de dicha compañía empezaron a presentar la temida “pantalla azul de la muerte” impidiendo el arranque de dichos equipos.

La actualización diseñada para corregir vulnerabilidades contenía un error lógico en la asignación de memoria bloqueando el sistema operativo la solución inmediata consistía en la intervención manual para eliminar archivos corruptos y reiniciar los sistemas, esto demandó considerable tiempo y esfuerzo por parte de técnicos.

La actualización defectuosa llevó a problemas graves. Las operaciones de muchas empresas se vieron afectadas, incluidas cancelaciones de vuelos y problemas en servicios financieros, siendo estos dos los sectores más afectados, pero de igual forma afectó empresas, escuelas, administraciones públicas y algunos servicios de emergencia. Microsoft trabajó en conjunto con CrowdStrike y otros proveedores de servicios en la nube para desarrollar soluciones y brindar soporte a los clientes afectados.

Impacto en instituciones universitarias

Las universidades dependen en gran medida de servicios, sistemas basados en Windows para administración académica y las clases en línea. La interrupción de servicios como Microsoft Teams y Office 365 afectó la impartición de clases y exámenes en algunas instituciones, Mientras que el acceso restringido a materiales y recursos digitales obstaculizó el aprendizaje, la investigación.

Además, los sistemas administrativos se enfrentaron retraso significativo, complicando procesos cruciales de inscripción y gestión financiera.

Dentro de la universidad no hubo afectaciones mayores, debido en primera instancia a que nos encontrábamos en periodo vacacional y los servicios que posee no sufrieron afectaciones gracias a la infraestructura usada en nuestros servidores, ya que fueran sobre sistemas operativos diferentes y en su mayoría son servicios locales lo que también evitó alguna afectación grave ocasionada por un tercero que si se viera afectado por ello.

Lecciones aprendidas

A raíz de esta falla es vital resaltar algunas secciones o consejos necesarios para que las organizaciones no se vean afectadas por problemas similares en un futuro.

  1. Actualizaciones escalonadas: implementar actualizaciones de manera gradual, poder mitigar el riesgo de fallos masivos al ir evaluando el desempeño de los equipos y sistemas.
  2. Control de calidad riguroso: de la mano con el punto anterior es importante realizar pruebas exhaustivas de implementar actualizaciones para evitar errores críticos.
  3. Planes de recuperación: es de suma importancia desarrollar y practicar planes de recuperación y contingencia antes de desastres para minimizar el impacto de incidentes similares.
  4. Reducción de acoplamiento: diversificar sistemas y proveedores para evitar dependencia excesiva en un solo servicio con la finalidad de poder seguir activos en caso de que se presente una falla.

Este fallo demuestra la interconexión de muchos sistemas y como la falla de uno puede desencadenar un efecto dominó afectando a otros, es crucial que las empresas afectadas analicen sus áreas de oportunidad y mejoren sus estrategias de resiliencia y recuperación tras este evento.

DV Player placeholder

Tags


Lo Último