Минулого тижня DreamHost зіткнувся з масштабним відключенням системи, яке вплинуло на обслуговування значної кількості наших клієнтів з сервісами, розміщеними у нашому центрі обробки даних “PDX1”. Багато наших систем були недоступні, і менше ніж половина сайтів наших клієнтів пережили періоди простою.
Сервіс був відновлений протягом 12 годин, і тепер, коли все вляглося, ми хотіли б надати вам оновлену інформацію про те, що сталося, чому це сталося, і які наші плани, щоб це не повторилося.
Що сталося?
У короткому викладі: У четвер, 2 листопада, один із центрів обробки даних, де розміщено багато наших серверів, втратив електроенергію, і його резервні енергосистеми не спрацювали.
Це не повинно було трапитися. Наш Центр обробки даних у Гіллсборо, штат Орегон («PDX1»), керується компанією Flexential, провідним лідером у сфері будівництва, управління та експлуатації Центрів обробки даних. Flexential відповідає за забезпечення електроенергією наших серверів у цьому об’єкті.
На їхню користь, їхній оперативний план реагування на проблеми з електроенергією відповідає кращим практикам галузі, і їхні резервні системи живлення є ключовим компонентом того, що за всіма рахунками, є сучасним об’єктом. Однак, як показали події минулого тижня, реальність неочікуваної проблеми з електроенергією може мати непередбачувані наслідки і спричинити ефект доміно, який може відлунюватися по всьому Інтернету.
Надлишкові системи
Стандартна та поширена конфігурація для забезпечення резервного живлення у більшості центрів обробки даних полягає у створенні двох повністю резервних систем живлення. Кожна система отримує свою енергію від комунального підприємства через унікальний, резервний шлях. Кожна система також містить власний банк UPS (неперервних джерел живлення – також відомих як «аварійні батареї») і на місці знаходиться флот дизельних генераторів для живлення всього об’єкта у разі необхідності.
Хоча повний звіт від Flexential надійде найближчим часом, з нашого боку ми спостерігали часткову втрату електроенергії, за якою послідувала повна втрата електроенергії для нашого парку серверів. Ми хочемо бути чіткими – це мало бути «неможливим» станом, і ми мали всі запевнення, що це так, включаючи гарантію на 100% доступність електроенергії угоди про рівень обслуговування (SLA). Ці системи електропостачання регулярно тестуються і проходять планове регулярне технічне обслуговування, щоб гарантувати їхню працездатність відповідно до задуму.
Під час типового відключення електроенергії в центрі обробки даних (запланованого або незапланованого), батареї UPS автоматично включаються лише настільки довго, щоб об’єкт міг активувати свої дизельні генератори.
Не зрозуміло, чому або як система UPS зазнала збою, генератори вийшли з ладу, або як обидві ці автоматизовані, резервні, незалежні системи живлення змогли так видовищно вийти з ладу одночасно. Ми вважаємо, що це було поєднанням збою в комунальному обслуговуванні, а також збою генератора та UPS. Повне розслідування триває, і ми очікуємо отримати результати незабаром.
Незалежно від причини, нашим пріоритетом та основною метою під час цієї події було відновлення роботи наших машин та відновлення сервісу для наших клієнтів.
Наша відповідь
Ми вперше отримали сповіщення про збій о 4:41 ранку місцевого часу у четвер, 2 листопада, за допомогою наших власних засобів моніторингу поза місцем. Ми негайно направили членів нашої команди з експлуатації Центру обробки даних до об’єкту, щоб розпочати процес відновлення послуг. Невдовзі після цього ми опублікували повідомлення про статус, щоб допомогти клієнтам слідкувати за зусиллями щодо відновлення сервісу.
Як тільки ми усвідомили повний обсяг цього збою, наша вся виконавча команда була повідомлена і переведена в режим готовності, тоді як кожен спеціаліст нашої команди Інфраструктури (як ті, що знаходяться на місці у центрі обробки даних, так і ті, що працюють віддалено) був залучений для відновлення систем.
На певному етапі в ході цієї події система контролю доступу будівлі також втратила живлення, що створило певні труднощі для нашої команди щодо доступу до входу. Коли повне живлення було нарешті відновлено в нашій частині центру обробки даних о 6:08 ранку, резервність, яку ми вбудували в нашу власну внутрішню інфраструктуру живлення, працювала так, як було задумано та очікувалося.
Очищення
Несподівані жорсткі перезавантаження та втрата живлення – на будь-якому рівні – можуть спричинити як збої устаткування, так і непередбачувану поведінку в програмному забезпеченні. Як і очікувалося, ми спостерігали достатньо обох.
Хоча один настільний ПК або ноутбук може легко відновитися після несподіваної втрати живлення, на жаль, це не реальність у контексті великого встановлення центру обробки даних. З тисячами серверів та десятками комутаторів, встановлених у цьому місці, це був обережний процес (добре задокументований та виконаний), щоб повернути системи в режим онлайн, протестувати кожну з них на аномальну поведінку та в кінцевому підсумку вжити коригувальних заходів за потреби.
Хоча дані клієнтів ніколи не були під загрозою, ми все ж мусили замінити кілька жорстких дисків та планок RAM у нашому парку серверів. Несподіваний відключення електроенергії також спричинило повернення деяких мережевих комутаторів до старіших версій їхнього програмного забезпечення, що вимагало оновлень та відновлення з раніше збережених конфігурацій.
Після довгого дня прибирання та багатьох годин роботи наших технічних команд, ми змогли нарешті відзначити всі основні системи як відновлені, і продовжили працювати вночі, щоб виявити та відремонтувати будь-які додаткові системи, які потребували уваги. Ми вирішили цей інцидент о 16:49 у четвер, майже через 12 годин після початкового переривання електроенергії.
Багато наших клієнтів побачили повне відновлення сервісу менш ніж за годину. Іншим довелося чекати набагато довше. Це справді був день, коли всі залучалися до роботи у Центрі обробки даних, і ми вдячні за терпіння та витримку, які багато хто з вас проявив у своїх повідомленнях нашій команді підтримки.
Наступні кроки
Цього тижня ми спілкуємося з Flexential, щоб зрозуміти, де сталася(лись) несправність(ності) та які їхні плани щодо запобігання такій самій ситуації в майбутньому.
Якщо ви коли-небудь стикнетеся з проблемами на своїх сайтах, які розміщені на DreamHost, і підозрюєте, що причиною може бути збій у системі, обов’язково зробіть https://www.dreamhoststatus.com/ вашим першим джерелом інформації. Оновлення стану нашої системи також публікуються на @dhstatus у X.
Нам шкода
Якщо вас зачепили події минулого четверга, прийміть наші щирі вибачення.
Ми усвідомлюємо, що ви обрали DreamHost, а не центр обробки даних, як вашого надійного онлайн-партнера. Вам не слід хвилюватися про те, хто надає послуги вашому вебсайту «далі по потоку». Хоча ми хотіли надати ясність щодо цієї події, ми розуміємо, що відповідальність лежить на нас.
Нам дуже шкода через абсолютні незручності, які це спричинило для ваших сайтів, вашого бізнесу та вашої онлайн-репутації. Ми зробимо все від нас залежне, щоб подібна подія більше не повторилася.