IT Service Manager (Системы мониторинга)

Москва, Ленинградское шоссе, 39Ас2

Метро: Балтийская

Описание вакансии

Мы ищем специалиста на роль сервис-менеджера для проекта по разработке и внедрению новых систем мониторинга, соответствующих портфелю систем и специфике работы наших заказчиков. Ваша задача будет заключаться в совместном с командой разработки проведении аудита существующих систем мониторинга, определении и анализе требований заказчика, а также в исследовании предложений на рынке.

Вы будете выбирать подходящие решения или разрабатывать собственные, а также заниматься внедрением этих решений как нового сервиса. В дальнейшем вам предстоит обеспечивать сервисную поддержку и, при необходимости, проводить регулярный анализ рынка. Также вы будете формировать бэклог улучшений и реализовывать их на практике.

Обязанности:

Разработка, внедрение, поддержка и постоянное улучшение ключевых процессов IT Service Management (ITSM): управление инцидентами, проблемами, изменениями, конфигурациями (CMDB), уровнем услуг (SLAs/OLAs)
Мониторинг и отчетность по ключевым метрикам (KPI) сервисов: доступность, выполнение SLA, удовлетворенность пользователей
Координация работы с другими IT-командами (инфраструктура, разработка, безопасность)
Организация и проведение регулярных обзоров обслуживания (Service Review Meetings) с бизнес-заказчиками
Управление процессом изменений (Request for Change, RFC)
Ведение и актуализация технической и процессной документации (регламенты, инструкции)
Информирование пользователей о плановых работах, инцидентах и изменениях
Обработка жалоб пользователей
Совместно с командой проводить анализ текущих систем мониторинга, оценивать их эффективность и выявлять возможности для улучшения.
Разрабатывать концепцию будущих систем мониторинга с учетом потребностей бизнеса и технологий.
Внедрять новые решения и инструменты мониторинга, обеспечивая их интеграцию с существующими системами.
Обучать команду и пользователей новым процессам и инструментам.
Регулярно проводить обзоры и обновления систем мониторинга, исходя из изменяющихся требований бизнеса.

Требования:

Знание систем мониторинга: Глубокое понимание архитектуры и принципов работы систем мониторинга (стек: Zabbix, Prometheus, Grafana, Nagios, SolarWinds.). Важно понимать, как работают сенсоры, агенты, SNMP, WMI, трапы и алерты.
Понимание протоколов и сетей: Знание сетевых протоколов (ICMP, SNMP, SMTP, HTTP/S, TCP/IP), моделей OSI/ISO, чтобы разбираться в инцидентах доступности.
Операционные системы и СУБД: Уверенное знание ОС семейства Linux (чтение логов, работа в консоли) и Windows.
Понимание основ работы баз данных (SQL/NoSQL), так как мониторинг тесно связан со сбором и хранением метрик.
Администрирование и автоматизация: Понимание принципов DevOps (CI/CD)
Методология мониторинга: Понимание различий между мониторингом «снаружи» (синтетика) и «изнутри», знание концепций «Золотых сигналов» (Latency, Traffic, Errors, Saturation).
Управление инцидентами и проблемами: Опыт руководства процессом разбора аварий. Формирование постморетмов организация «разбора полетов» без поиска виноватых.
Понимание процессов ITIL (Управление инцидентами, Проблемами, Изменениями и Уровнем сервиса — SLA). Умение формализовать работу сервиса как услуги.
Управление метриками и SLA: Навык формализации требований к системе мониторинга (ЧТО мониторим и КАК часто), контроль соблюдения SLA (доступность сервиса мониторинга, время реакции на сбой датчика).
Ведение документации: Умение требовать и поддерживать в актуальном состоянии базу знаний, схемы, инструкции для администраторов смежных сервисов.
Управление мощностями (Capacity Management): Планирование расширения системы мониторинга (увеличение количества метрик, добавление новых сегментов сети).
Понимание критичности: Умение классифицировать системы по уровню важности для бизнеса (Критичные -> Вспомогательные).
Работа с подрядчиками: Опыт взаимодействия с вендорами систем мониторинга (обновления, лицензирование, открытие техподдержки).
Управление качеством: Постоянное улучшение качества мониторинга (снижение количества ложных срабатываний, уменьшение времени детектирования проблем — MTTD).

Требования к кандидату:

Опыт управления сервисом мониторинга от 2-х лет (администрирование и/или руководство командой).
Глубокое знание систем мониторинга (например: Zabbix, Prometheus + Grafana, Victoria Metrics).
Понимание процессов ITSM/ITIL (Управление инцидентами, Проблемами, Изменениями).
Навыки работы с Linux
Опыт формализации SLA и ведения отчетности по доступности сервисов.
Развитые коммуникативные навыки, умение работать в режиме многозадачности и критических сбоев.
Опыт внедрения сервисов с нуля