Чем предстоит заниматься:
- Осуществление круглосуточного мониторинга событий в системах Prometheus/VictoriaMetrics, Zabbix;
- Создание инцидентов в таск-трекинговой системе и эскалация на ответственных специалистов;
- Взаимодействие со смежными командами по вопросам развития и оптимизации мониторинга: создание и корректировка алертов, добавление новых метрик и правил детекции инцидентов;
- Анализ логов и метрик для первичной диагностики причин инцидентов;
- Актуализация документации по правилам мониторинга и процедурам реагирования;
- Работа с Grafana: cоздание и доработка дашбордов, анализ метрик для выявления потенциальных проблем, визуализация данных для различных групп пользователей.
Что мы ожидаем:
- Опыт работы с системами мониторинга: Prometheus/VictoriaMetrics, Zabbix;
- Навыки создания и настройки дашбордов в Grafana;
- Понимание принципов построения алертинга и настройки Alertmanager (или аналогов);
- Опыт работы в таск-трекинговых системах (Jira, Service Desk или аналогах);
- Опыт взаимодействия с другими IT-подразделениями при решении инцидентов: эскалация проблем, координация действий между командами, обеспечение своевременного реагирования на алерты;
- Понимание основных принципов мониторинга: метрики и их типы, алертинг и триггеры, процессы эскалации.
Условия:
- Удаленный формат работы с графиком 1/3 с 8.00 до 8.00 по МСК;
- Работу в IT-компании, аккредитованной в Министерстве цифрового развития;
- Работа с командой профессионалов;
- Отсутствие бюрократии и бессмысленных процессов;
- Полностью "белая" оплата труда;
- ДМС после 3 месяцев работы;
- Официальное оформление по ТК РФ с первого дня работы;
- Возможности для профессионального и карьерного роста.
Откликайся на вакансию и HR-менеджер свяжется с тобой :)