Вводная
Классическая неприятная ситуация: сайт на сервере живой, админ видит нормальный ответ, а часть пользователей говорит, что всё красное и не открывается.
Что было не так
Проблема была не похожа на обычный баг сайта. По серверу и локальной проверке всё могло быть нормально, но из других сетей появлялись таймауты, ошибки TLS или странные HTTP-ответы. Значит, нужно было разделить три зоны: сам сайт, DNS/SSL и региональную доступность.
Диагностика
- проверены HTTP-коды по списку URL;
- проверены редиректы и TLS;
- проверена доступность по IPv4;
- выполнены параллельные curl-проверки;
- протестировано поведение через прокси/зеркала;
- отдельно проверено, что origin-сервер живой.
Что было сделано
- собран список URL для мониторинга;
- сделана параллельная проверка статусов;
- добавлен вывод кодов и времени ответа;
- проверены прокси и зеркала;
- выделены коды, по которым видно тип проблемы: 200/301/403/499/500/502/504;
- подготовлена схема дальнейшего наблюдения.
Результат
Вместо ощущения «сайт иногда не работает» появилась карта симптомов. Можно понять, это проблема сервера, DNS/SSL, маршрута, прокси или конкретных провайдеров.
Что контролировать дальше
Для таких случаев нужен мониторинг из нескольких точек, а не одна проверка с рабочего ноутбука. Один зелёный curl не доказывает, что сайт доступен всем клиентам.