«Черная пятница» от FirstVPS

Пятница 13 июля 2018 года началась для меня в 4 часа утра по Москве, когда после нескольких смс-оповещений начали звонить сотрудники одного из сибирских клиентов. Сайт компании не работал. Я было ринулся перезагружать сервер, но нет. Тот оказался недоступен. Как и ряд серверов других клиентов, находящихся у этого же хостера. В добавок ко всему, официальный сайт самой хостинг-компании, также находился  в глубоком ауте. Так что же случилось?

Для людей непосвященных немного вводных данных. Существуют два проекта: первый — компания FirstVPS, работающая на рынке порядка 15-ти лет и занимающаяся предоставлением услуг виртуального хостинга (VDS и VPS серверы) и компания FirstDedic, более юная, предоставляющая в аренду выделенные сервера. Все мощности обеих компаний находятся в одном Дата-центре, а именно — АО «Датацентр», расположенном городе Химки.
Проекты не то чтобы являются аффилированными, в сущности эти две организации либо плотно сотрудничают, но скорее входят в один холдинг. Формальная независимость компаний друг от друга — всего лишь способ продвижения двух разновидностей услуг. Подход достаточно оригинальный, но наверняка для этого есть свои причины. Впрочем, это мое личное мнение, тут я могу сильно ошибаться, но сегодня не об этом. Далее по фактам.

Проблемы начались в 3:55 по московскому времени, когда, как было заявлено, вышла из строя автоматика дизельной группы, заменяющей основное питание Дата Центра на время профилактики городских электросетей.

В конце концов появилась официальная информация:

В последний месяц химкинские электросети частенько радовали инженеров ДЦ штатными отключениями и авариями, но, благодаря резервированию каналов электропитания, наши клиенты этого даже не замечали.

Сегодня, по иронии судьбы в пятницу 13, во время очередного отключения электропитания вышла из строя автоматика дизельной группы (3:55 МСК).

К решению проблемы приступили оперативно — за 2 часа починили автоматику и запустили питание (к 5:55 по МСК). Большая часть серверов запустилась в автоматическом режиме без ошибок и потерь данных до 6:30 МСК. Остальным нодам потребовалась 15-минутная перезагрузка сети (7:30 по МСК). После неё еще несколько сотен серверов загрузились автоматически. Начиная с 6:30 МСК по текущее время администраторы запускают остальные ноды в ручном режиме.

С 10:30 МСК ограничим доступ к личному кабинету и звонкам на пару часов — биллинговая система не справляется с количеством запросов. Ожидаем, что до 13:00 по МСК восстановим работу 99% серверов и снимем ограничения доступа к ЛК.

В понедельник выложим официальное заявление на сайте.

И да, я готов частично подтвердить правдивость данной публикации. Физические серверы моих клиентов действительно «поднялись» около 6 утра по МСК. То ли потому что «дедики» загрузились самостоятельно, то ли потому что питание на них было подано в первую очередь. Доподлинно неизвестно. Клиенты FirstDedic пострадали, но в меньшей степени. В особенности повезло тем, кто живет по московскому времени, так как сбой пришелся на ранее утро. Некоторые его вовсе не заметили.

Гораздо меньше повезло клиентам FirstVPS. Судя по трешу, который происходил в официальной группе ВКонтакте, у многих клиентов виртуальные серверы были недоступны и после заявленных 13:00 по МСК. До позднего вечера поступали гневные комментарии по этому поводу. Судя по всему полностью решить проблему удалось только через сутки с момента ее возникновения. Важно понимать, что виртуальные машины бывают тоже далеко не копеечными. Так, например, линейка отказоустойчивого VPS-хостинга «Атлант» начинается с ценника в 1700 рублей в месяц. Верхняя планка доходит до совершенно неприличных цифр. В эту пятницу «Атланты» лежали в одной кучке со своими младшими собратьями.

О проблемах с энергоснабжением отлично известно и зарубежным хостерам. Так 21 июня этого года немецкий корпоративный хостинг-провайдер Colobridge выпадал из онлайна по схожим причинам. Симптомы те же: официальный сайт недоступен, линии поддержки не отвечают. Правда время простоя серверов составило примерно 20 минут.

От подобных проблем не застрахован никто. Правда ликвидация последствий непредвиденных ситуаций решается немного по-разному.

Update 16.07.2018: текст отредактирован и дополнен.

Опубликовано: 13 июля 2018 года, в рубрике «Разработка».

Теги:

Оставить комментарий

5000
  Подписаться  
Уведомление о
Поблагодарить автора статьи
Зачем это нужно