Sobre a última quinta-feira…

Na semana passada, a DreamHost enfrentou uma interrupção generalizada do sistema que impactou o serviço de um grande número de nossos clientes com serviços hospedados em nosso centro de dados “PDX1”. Muitos de nossos sistemas ficaram inacessíveis, e menos da metade dos sites de nossos clientes experimentaram períodos de inatividade.

O serviço foi amplamente restaurado dentro de 12 horas, e agora que a poeira baixou, queremos fornecer a você uma atualização sobre o que aconteceu, por que aconteceu e quais são nossos planos para evitar que isso aconteça novamente.

O que Aconteceu?

Em resumo: Na manhã de quinta-feira, 2 de novembro, um dos Centros de Dados que abriga um grande número dos nossos servidores perdeu energia e seus sistemas de energia redundantes falharam.

Isso não deveria ter acontecido. Nosso Centro de Dados em Hillsboro, Oregon (“PDX1”) é gerenciado pela Flexential, uma líder comprovada na construção, gerenciamento e operações de centros de dados. A Flexential é responsável por fornecer energia para nossos servidores nesta instalação.

Para seu crédito, o plano operacional deles para lidar com problemas de energia segue as melhores práticas do setor e seus sistemas de energia redundantes são um componente chave para o que é, segundo todos os relatos, uma instalação de última geração. No entanto, como os eventos da semana passada mostraram, a realidade de um evento de energia inesperado pode ter implicações imprevistas e um efeito cascata que pode repercutir em toda a Internet.

Sistemas Redundantes

Uma configuração padrão e comum para redundância de energia dentro da maioria dos centros de dados é construir dois sistemas de energia totalmente redundantes. Cada sistema obtém sua energia de uma utilidade por meio de um caminho redundante único. Cada sistema também contém seu próprio banco de UPSs (fontes de alimentação ininterrupta – também conhecidas como “baterias de emergência”) e uma frota de geradores a diesel fica no local para alimentar toda a instalação se necessário.

Embora um relatório completo da Flexential esteja a caminho, o que observamos do nosso lado foi uma perda parcial de energia seguida por uma perda completa de energia para a nossa frota de servidores. Queremos deixar claro – isso deveria ter sido uma condição “impossível” e tínhamos todas as garantias de que seria, incluindo um acordo de nível de serviço (SLA) de disponibilidade de energia de 100%. Esses sistemas de energia são testados regularmente e passam por manutenções regulares e programadas para garantir que funcionarão conforme o esperado.

Em um típico apagão no centro de dados (planejado ou não), as baterias UPS entram em ação automaticamente apenas o tempo suficiente para que a instalação ative seus geradores a diesel.

Não está claro por que ou como o sistema de UPS falhou, os geradores falharam, ou como ambos esses sistemas de energia automáticos, redundantes e independentes conseguiram falhar tão espetacularmente ao mesmo tempo. Acreditamos que isso tenha sido uma combinação de uma falha de utilidade, assim como uma falha de gerador e de UPS. Uma investigação completa está em andamento e esperamos receber os resultados em breve.

Independentemente da causa, nosso foco e nossa prioridade durante este evento foi trazer nossas máquinas de volta à operação e restaurar o serviço para nossos clientes.

Nossa Resposta

Fomos alertados pela primeira vez sobre uma interrupção às 4:41 da manhã, horário local, na quinta-feira, 2 de novembro, por meio de nossas próprias ferramentas de monitoramento fora do local. Imediatamente despachamos membros da nossa equipe de Operações do Centro de Dados para a instalação para iniciar o processo de restauração dos serviços. Publicamos um post de status logo em seguida para ajudar os clientes a acompanhar os esforços de restauração do serviço.

Assim que percebemos a extensão total dessa interrupção, toda a nossa equipe executiva foi acionada e colocada em alerta, enquanto cada especialista da nossa equipe de Infraestrutura (tanto os que estão localizados no centro de dados quanto os que trabalham remotamente) foi chamado para restabelecer os sistemas.

Em algum momento durante essa resposta, o sistema de controle de acesso do prédio também perdeu energia, tornando um pouco desafiador para nossa equipe conseguir entrar. Quando a energia total foi finalmente restaurada em nossa parte do centro de dados às 6:08 da manhã, a redundância que havíamos incorporado em nossa própria infraestrutura interna de energia funcionou conforme projetado e conforme esperado.

A Limpeza

Reinicializações inesperadas e perda de energia – em qualquer escala – podem causar falhas de hardware e comportamentos inesperados no software. Como esperado, vimos bastante de ambos.

Embora um único PC de mesa ou laptop possa se recuperar graciosamente de uma perda inesperada de energia, essa infelizmente não é a realidade no contexto de uma instalação de um grande Centro de Dados. Com milhares de servidores e dezenas de switches instalados neste local, foi um processo cuidadoso (bem documentado e executado) para reiniciar os sistemas, testar cada um deles quanto a comportamentos anômalos e, finalmente, tomar as medidas corretivas necessárias.

Embora nenhum dado de cliente tenha sido comprometido, tivemos que substituir mais de alguns discos rígidos e barras de RAM em nossa frota de servidores. O corte de energia inesperado também fez com que alguns switches de rede voltassem para versões antigas de seus firmwares, necessitando de atualizações e restaurações a partir de configurações previamente salvas.

Após um longo dia de limpeza e muitas horas de trabalho por parte de nossas equipes técnicas, conseguimos finalmente declarar todos os principais sistemas como restaurados, e continuamos trabalhando durante a noite para identificar e reparar quaisquer sistemas adicionais que precisassem de atenção. Resolvemos este incidente às 16:49 de quinta-feira, pouco menos de 12 horas após a interrupção inicial de energia.

Muitos de nossos clientes tiveram o serviço totalmente restaurado em menos de uma hora. Outros tiveram que esperar muito mais. Foi verdadeiramente um dia de mobilização total para nós no centro de dados, e agradecemos a paciência e a compreensão que muitos de vocês demonstraram em suas mensagens para nossa equipe de Suporte.

Próximos Passos

Estamos em conversa com a Flexential esta semana para entender onde ocorreu(ram) o(s) erro(s) e quais são seus planos para evitar que este exato cenário aconteça no futuro.

Se você tiver problemas com seus sites hospedados na DreamHost e suspeitar que uma falha mais ampla no sistema possa ser a causa, certifique-se de fazer do https://www.dreamhoststatus.com/ sua primeira parada para informações. Atualizações sobre o status do nosso sistema também são postadas em @dhstatus no X.

Sentimos muito

Se você foi impactado pelos eventos da última quinta-feira, aceite nossas sinceras desculpas.

Percebemos que você escolheu a DreamHost, não um Centro de Dados, para ser seu parceiro online de confiança. Você não deveria ter que se preocupar com quem fornece serviços ao seu site “mais acima na corrente”. Embora quiséssemos proporcionar clareza sobre este evento, entendemos que a responsabilidade final é nossa.

Lamentamos profundamente o transtorno absoluto que isso causou aos seus sites, seus negócios e sua reputação online. Faremos tudo ao nosso alcance para garantir que um evento como este não se repita.