About Last Thursday…

La semana pasada, DreamHost experimentó una interrupción general del sistema que afectó el servicio de un gran número de nuestros clientes con servicios alojados en nuestro centro de datos “PDX1”. Muchos de nuestros sistemas estaban inaccesibles y menos de la mitad de los sitios de nuestros clientes experimentaron períodos de inactividad.

El servicio fue restaurado en gran medida dentro de las 12 horas, y ahora que el polvo se ha asentado queremos ofrecerte una actualización sobre qué sucedió, por qué sucedió y cuáles son nuestros planes para evitar que vuelva a suceder.

¿Qué Sucedió?

En resumen: La mañana del jueves 2 de noviembre, uno de los centros de datos que alberga un gran número de nuestros servidores perdió energía y sus sistemas de energía redundantes fallaron.

Esto no debería haber ocurrido. Nuestro centro de datos en Hillsboro, Oregón (“PDX1”) es operado por Flexential, un líder comprobado en la construcción, gestión y operaciones de centros de datos. Flexential es responsable de proporcionar energía a nuestros servidores en esta instalación.

A su favor, su plan operativo para lidiar con problemas de energía sigue las mejores prácticas de la industria y sus sistemas de energía redundantes son un componente clave de lo que es, según todos los informes, una instalación de última generación. Sin embargo, como los eventos de la semana pasada han demostrado, la realidad de un evento de energía inesperado puede tener implicaciones imprevistas y un efecto dominó que puede repercutir a través de Internet.

Sistemas Redundantes

Una configuración estándar y común para la redundancia de energía dentro de la mayoría de los centros de datos es construir dos sistemas de energía completamente redundantes. Cada sistema obtiene su energía de un servicio público a través de un camino redundante único. Cada sistema también contiene su propio banco de UPSs (fuentes de alimentación ininterrumpida – también conocidas como “baterías de emergencia”) y una flota de generadores diésel se encuentra en el sitio para alimentar toda la instalación si es necesario.

Mientras esperamos un informe completo de Flexential, lo que observamos desde nuestro lado fue una pérdida parcial de energía seguida de una pérdida total de energía para nuestra flota de servidores. Queremos ser claros: esta debería haber sido una condición “imposible” y teníamos todas las garantías de que así sería, incluyendo un acuerdo de nivel de servicio (SLA) de disponibilidad de energía del 100%. Estos sistemas de energía se prueban regularmente y se someten a mantenimiento programado regularmente para asegurar que funcionarán como se espera.

Durante un corte de energía típico en el centro de datos (planificado o no planificado), las baterías UPS se activan automáticamente justo el tiempo suficiente para que la instalación active sus generadores diésel.

No está claro por qué o cómo falló el sistema de UPS, fallaron los generadores, o cómo ambos de estos sistemas de energía automáticos, redundantes e independientes lograron fallar de manera tan espectacular al mismo tiempo. Creemos que esto ha sido una combinación de un fallo de utilidad así como un fallo del generador y del UPS. Una investigación completa está en curso y esperamos recibir resultados próximamente.

Independientemente de la causa, nuestro enfoque y nuestra prioridad durante este evento fue volver a poner en línea nuestras máquinas y restaurar el servicio a nuestros clientes.

Nuestra Respuesta

Fuimos alertados por primera vez de una interrupción a las 4:41 am hora local el jueves, 2 de noviembre, a través de nuestras propias herramientas de monitoreo externas. Inmediatamente enviamos a miembros de nuestro equipo de Operaciones del Centro de Datos a la instalación para comenzar el proceso de reactivación de los servicios. Publicamos una publicación de estado poco después para ayudar a los clientes a seguir los esfuerzos de restauración del servicio.

Una vez que nos dimos cuenta del alcance total de este corte, todo nuestro equipo ejecutivo fue alertado y puesto en aviso, mientras que cada especialista de nuestro equipo de Infraestructura (tanto los locales en el centro de datos como aquellos trabajando remotamente) fue convocado para reestablecer los sistemas.

En algún momento durante esta respuesta, el sistema de control de acceso del edificio también perdió energía, lo que supuso un desafío para nuestro equipo para poder entrar. Cuando la energía fue finalmente restaurada por completo en nuestra sección del centro de datos a las 6:08 am, la redundancia que habíamos incorporado en nuestra propia infraestructura de energía interna funcionó como estaba diseñado y como se esperaba.

La Limpieza

Los reinicios duros inesperados y la pérdida de energía, en cualquier escala, pueden causar tanto fallos de hardware como comportamientos inesperados en el software. Como se esperaba, vimos mucho de ambos.

Aunque un solo PC de escritorio o laptop puede recuperarse con gracia de una pérdida inesperada de energía, esa lamentablemente no es la realidad dentro del contexto de una instalación de un gran centro de datos. Con miles de servidores y decenas de switches instalados en esta ubicación, fue un proceso cuidadoso (bien documentado y ejecutado) para volver a poner en línea los sistemas, probar cada uno de ellos para detectar comportamientos anómalos y, finalmente, tomar las acciones correctivas necesarias.

Mientras los datos de los clientes nunca estuvieron en riesgo, tuvimos que reemplazar más de unos cuantos discos duros y barretas de RAM en nuestra flota de servidores. El corte de energía inesperado también causó que algunos interruptores de red volvieran a versiones anteriores de su firmware, necesitando actualizaciones y restauraciones de configuraciones previamente guardadas.

Después de un largo día de limpieza y muchas horas de trabajo por parte de nuestros equipos técnicos, finalmente pudimos marcar todos los sistemas principales como restaurados, y continuamos trabajando durante la noche para identificar y reparar cualquier sistema adicional que necesitara atención. Resolvimos este incidente a las 4:49 pm del jueves, justo menos de 12 horas desde la interrupción inicial de energía.

Muchos de nuestros clientes vieron el servicio completamente restaurado en menos de una hora. Otros tuvieron que esperar mucho más tiempo. Fue verdaderamente un día de todos manos a la obra para nosotros en el centro de datos, y agradecemos la paciencia y gracia que muchos de ustedes han mostrado en sus mensajes a nuestro equipo de soporte.

Próximos Pasos

Esta semana estamos en conversación con Flexential para entender dónde ocurrieron los fallos y cuáles son sus planes para evitar que este escenario exacto se repita en el futuro.

Si alguna vez experimentas problemas con tus sitios alojados en DreamHost y sospechas que puede ser debido a una interrupción del sistema más amplia, asegúrate de hacer de https://www.dreamhoststatus.com/ tu primera parada para obtener información. Las actualizaciones sobre el estado de nuestro sistema también se publican en @dhstatus en X.

Lo sentimos

Si se vio afectado por los eventos del pasado jueves, acepte nuestras sinceras disculpas.

Somos conscientes de que elegiste a DreamHost, no a un Centro de Datos, para ser tu socio de confianza en línea. No deberías tener que preocuparte por quién proporciona servicios a tu sitio web “más arriba”. Aunque queríamos proporcionar claridad sobre este evento, entendemos que la responsabilidad final es nuestra.

Lamentamos profundamente las molestias absolutas que esto ha causado a sus sitios, sus negocios y su reputación en línea. Haremos todo lo que esté en nuestro poder para asegurar que un evento como este no vuelva a ocurrir.