Вводная
Сайты клиента начали регулярно падать утром. Проблема выглядела как очередной сбой веб-сервера, но время повторялось слишком стабильно, чтобы считать это случайностью.
Что было не так
В 5:30 запускалось автообновление панели. Оно перезапускало сетевые службы и nginx. После этого nginx стартовал раньше, чем сервер успевал получить нужный IP-адрес. В итоге HTTPS временно не поднимался, а сайты выглядели мёртвыми.
Диагностика
- сопоставлено время недоступности с расписанием обновления панели;
- проверены access/error logs;
- проверен порядок запуска сетевых служб и nginx;
- проверены ответы доменов после ручного восстановления;
- исключена проблема в самом WordPress/коде сайта.
Что было сделано
- отключено автообновление панели в проблемном режиме;
- добавлен механизм автоперезапуска nginx;
- проверена доступность доменов;
- подготовлен план на закрепление IP или изменение `listen`, чтобы nginx не зависел от гонки запуска сети.
Результат
Падения перестали выглядеть как магия. Причина была найдена по логам и времени, после чего сайт вернулся в рабочий режим, а риск повторения снизили техническими правками.
Что контролировать дальше
После таких инцидентов важно отдельно проверять обновления панели, перезапуски сетевых служб и поведение nginx после reboot/service restart.