Мы усиливаем команду SRE и ищем лидера направления, который выстроит современный мониторинг и алертинг, а затем сформирует собственную команду.
Чем предстоит заниматься:
- Развивать и поддерживать систему мониторинга и алертинга на базе Zabbix, Grafana, Prometheus;
- Построить единые подходы к наблюдаемости и взаимодействию с продуктовыми командами;
- Разрабатывать и внедрять дашборды, метрики и алерты для продуктовых и инфраструктурных систем;
- Настроить мониторинг интеграций между системами и внешними сервисами;
- Автоматизировать процессы сбора метрик и обработки событий;
- Участвовать в анализе инцидентов и постмортемах, внедрять улучшения для предотвращения повторных аварий;
- Снижать MTTR (mean time to recovery) и повышать надежность бизнес-критичных систем;
- В перспективе — набирать команду инженеров, обучать и развивать их, распределять задачи внутри направления.
Что мы ждём:
- Опыт работы с системами мониторинга (Zabbix, Grafana, Prometheus или аналогами);
- Знание принципов построения эффективного мониторинга и алертинга (SLA/SLO/Error budget);
- Понимание архитектуры распределённых систем и интеграций;
- Опыт автоматизации (bash/python/go, Ansible/Terraform будет плюсом);
- Навыки анализа инцидентов и поиска первопричин проблем;
- Опыт взаимодействия с продуктовыми командами и умение объяснять ценность наблюдаемости;
- Лидерские качества: готовность брать ответственность, формировать команду и развивать специалистов.
Будет плюсом:
-
- Опыт работы в финансовых или других высоконагруженных/критичных системах;
- Практика внедрения SRE-практик (postmortem, error budget, chaos testing);
- Опыт управления командой или наставничества;
- Знание CI/CD и контейнерных технологий (Docker, Kubernetes).