Крупный транзакционный сервис, лидер Центральной Азии, развивающий масштабные технические решения для B2B-сегмента, в портфеле компании — продукты для банковского процессинга, работающие на международных рынках.
Компания ищет опытного лидера для создания команды дежурных инженеров.
Основная задача — обеспечить стабильную и эффективную работу дежурной смены 24/7, гарантировать мгновенную реакцию на любые сбои и минимизировать их влияние на бизнес. Ключевые задачи и зоны ответственности:
Организация работы дежурной смены 24/7:
- Составление и контроль графиков дежурств, обеспечение полного покрытия всех временных слотов.
- Координация действий инженеров во время смены, распределение нагрузки и оперативных задач.
- Контроль за своевременной и корректной эскалацией инцидентов на следующие линии поддержки и в смежные команды (разработка, DevOps, системные администраторы).
Управление инцидентами (Incident Management): - Руководство процессом реакции на критичные инциденты в режиме реального времени.
- Анализ причин сбоев (Post-mortem), разработка и контроль внедрения мер по их предотвращению.
Развитие команды и процессов: - Наставничество и обучение дежурных инжеров: развитие их технических навыков и умения действовать в стрессовых ситуациях.
- Разработка и актуализация инструкций, регламентов и базы знаний для команды.
- Поиск и устранение "узких мест" в процессах мониторинга и реагирования.
Работа с инструментами мониторинга: - Администрирование и развитие текущей системы мониторинга (например, Zabbix, Prometheus, Grafana, ELK Stack).
- Автоматизация рутинных задач дежурной смены (написание скриптов на Python/Bash/SQL).
- Постановка задач на доработку систем мониторинга для повышения точности алертов и снижения "шума".
Наши ожидания от кандидата:
• Подтвержденный опыт руководства командой в IT, работающей в сменном графике (диспетчерская, дежурная смена, NOC/SOC) от 2-х лет.
• Глубокое понимание принципов работы IT-инфраструктуры: Вы должны говорить на одном языке с инженерами (сети, ОС Linux, базы данных, веб-серверы).
• Практический опыт работы с системами мониторинга (Zabbix/Prometheus/Grafana — обязательно) и логирования (ELK Stack/Loki).
• Опыт управления инцидентами: Вы не теряетесь в стрессовой ситуации, умеете быстро принимать решения и координировать действия разных специалистов.
• Навыки автоматизации: Умение писать скрипты на Python/Bash/SQL для упрощения работы команды.
• Высокий уровень ответственности: Понимание, что от работы вашей команды напрямую зависит доступность сервисов компании.
Что мы предлагаем:
• Конкурентоспособная заработная плата и система премирования по результатам работы.
• График работы 5/2 с управлением удаленными сменами.
• Cовременный офис в центре Москвы.
• ДМС.
• Прямое влияние на стабильность продуктов компании и возможность видеть результаты своей работы.