Руководитель команды мониторинга/Head of monitoring

Описание вакансии

Крупный транзакционный сервис, лидер Центральной Азии, развивающий масштабные технические решения для B2B-сегмента, в портфеле компании — продукты для банковского процессинга, работающие на международных рынках.

Компания ищет опытного лидера для создания команды дежурных инженеров. Основная задача — обеспечить стабильную и эффективную работу дежурной смены 24/7, гарантировать мгновенную реакцию на любые сбои и минимизировать их влияние на бизнес.

Ключевые задачи и зоны ответственности:

Организация работы дежурной смены 24/7:

Составление и контроль графиков дежурств, обеспечение полного покрытия всех временных слотов.
Координация действий инженеров во время смены, распределение нагрузки и оперативных задач.
Контроль за своевременной и корректной эскалацией инцидентов на следующие линии поддержки и в смежные команды (разработка, DevOps, системные администраторы).
Управление инцидентами (Incident Management):
Руководство процессом реакции на критичные инциденты в режиме реального времени.
Анализ причин сбоев (Post-mortem), разработка и контроль внедрения мер по их предотвращению.

Развитие команды и процессов:
Наставничество и обучение дежурных инжеров: развитие их технических навыков и умения действовать в стрессовых ситуациях.
Разработка и актуализация инструкций, регламентов и базы знаний для команды.
Поиск и устранение "узких мест" в процессах мониторинга и реагирования.

Работа с инструментами мониторинга:
Администрирование и развитие текущей системы мониторинга (например, Zabbix, Prometheus, Grafana, ELK Stack).
Автоматизация рутинных задач дежурной смены (написание скриптов на Python/Bash/SQL).
Постановка задач на доработку систем мониторинга для повышения точности алертов и снижения "шума".

Наши ожидания от кандидата:
• Подтвержденный опыт руководства командой в IT, работающей в сменном графике (диспетчерская, дежурная смена, NOC/SOC) от 2-х лет.
• Глубокое понимание принципов работы IT-инфраструктуры: Вы должны говорить на одном языке с инженерами (сети, ОС Linux, базы данных, веб-серверы).
• Практический опыт работы с системами мониторинга (Zabbix/Prometheus/Grafana — обязательно) и логирования (ELK Stack/Loki).
• Опыт управления инцидентами: Вы не теряетесь в стрессовой ситуации, умеете быстро принимать решения и координировать действия разных специалистов.
• Навыки автоматизации: Умение писать скрипты на Python/Bash/SQL для упрощения работы команды.
• Высокий уровень ответственности: Понимание, что от работы вашей команды напрямую зависит доступность сервисов компании.

Что мы предлагаем:
• Конкурентоспособная заработная плата и система премирования по результатам работы.
• График работы 5/2 с управлением удаленными сменами.
• Cовременный офис в центре Москвы.
• ДМС.
• Прямое влияние на стабильность продуктов компании и возможность видеть результаты своей работы.