Команда мониторинга отвечает за стабильность и доступность ключевых сервисов компании. Наша группа Incident Management — это 8 специалистов, которые круглосуточно следят за системами, быстро реагируют на инциденты и помогают бизнесу работать без перебоев. Сейчас мы ищем руководителя, который сможет развивать процессы и команду, а также вывести автоматизацию на новый уровень.
Обязанности:
- Управлять командой (8 человек): ставить цели, помогать развиваться, поддерживать on-call процессы и процессы по дежурствам.
- Формулировать и достигать цели по ключевым метрикам (OKR): сокращать количество инцидентов, уменьшать время реакции и восстановления, снижать даунтайм.
- Внедрять автоматизацию: боты, скрипты, интеграции для ускорения реагирования и устранения рутины.
- Работать с разными системами: Atlassian-стек (Jira, Confluence) и наши собственные разработки.
- Организовывать постмортемы: находить корневые причины и внедрять улучшения.
- Следить за выполнением SLA, готовить необходимые отчёты
- Развивать базу знаний и рабочие инструкции, проводить учения по инцидентам.
Что мы ждём от вас:
- Опыт работы в мониторинге, Incident Management, NOC или SRE (от 5 лет), из них минимум 2 года — в роли тимлида или руководителя.
- Умение управлять инцидентами в роли Incident Manager/Commander, расставлять приоритеты и быстро принимать решения.
- Опыт работы с OKR и достижением метрик надежности (MTTA, MTTR, SLA).
- Владение Python и SQL на уровне написания скриптов, автоматизации и анализа данных.
- Знание инструментов мониторинга и APM, умение работать с разными системами (Prometheus, Zabbix, Grafana и др.), готовность быстро осваивать новые.
- Опыт работы с Jira, Confluence или аналогичными ITSM-системами.
- Навыки проведения постмортемов и внедрения улучшений.
- Хорошие коммуникативные навыки: умение доносить информацию как до инженеров, так и до бизнеса. Также желателен разговорный английский язык (коммуникация с коллегами из Китая)
Будет плюсом
- Опыт в SRE/DevOps и автоматизации инфраструктуры.
- Знание Kubernetes, облачных платформ.
- Практика внедрения чат-ботов для поддержки on-call и интеграций с мессенджерами.
Условия:
- Работу в одной из крупнейших в России компаний в сфере e-commerce
- Конкурентоспособную заработную плату с бонусами по результатам работы
- MacBook Pro 13/16
- ДМС и страхование от несчастных случаев (со 100% страхованием детей)
- Гибридный график работы