Мы ищем специалиста на роль сервис-менеджера для проекта по разработке и внедрению новых систем мониторинга, соответствующих портфелю систем и специфике работы наших заказчиков. Ваша задача будет заключаться в совместном с командой разработки проведении аудита существующих систем мониторинга, определении и анализе требований заказчика, а также в исследовании предложений на рынке.
Вы будете выбирать подходящие решения или разрабатывать собственные, а также заниматься внедрением этих решений как нового сервиса. В дальнейшем вам предстоит обеспечивать сервисную поддержку и, при необходимости, проводить регулярный анализ рынка. Также вы будете формировать бэклог улучшений и реализовывать их на практике.
Обязанности:
- Разработка, внедрение, поддержка и постоянное улучшение ключевых процессов IT Service Management (ITSM): управление инцидентами, проблемами, изменениями, конфигурациями (CMDB), уровнем услуг (SLAs/OLAs)
- Мониторинг и отчетность по ключевым метрикам (KPI) сервисов: доступность, выполнение SLA, удовлетворенность пользователей
- Координация работы с другими IT-командами (инфраструктура, разработка, безопасность)
- Организация и проведение регулярных обзоров обслуживания (Service Review Meetings) с бизнес-заказчиками
- Управление процессом изменений (Request for Change, RFC)
- Ведение и актуализация технической и процессной документации (регламенты, инструкции)
- Информирование пользователей о плановых работах, инцидентах и изменениях
- Обработка жалоб пользователей
- Совместно с командой проводить анализ текущих систем мониторинга, оценивать их эффективность и выявлять возможности для улучшения.
- Разрабатывать концепцию будущих систем мониторинга с учетом потребностей бизнеса и технологий.
- Внедрять новые решения и инструменты мониторинга, обеспечивая их интеграцию с существующими системами.
- Обучать команду и пользователей новым процессам и инструментам.
- Регулярно проводить обзоры и обновления систем мониторинга, исходя из изменяющихся требований бизнеса.
Требования:
- Знание систем мониторинга: Глубокое понимание архитектуры и принципов работы систем мониторинга (стек: Zabbix, Prometheus, Grafana, Nagios, SolarWinds.). Важно понимать, как работают сенсоры, агенты, SNMP, WMI, трапы и алерты.
- Понимание протоколов и сетей: Знание сетевых протоколов (ICMP, SNMP, SMTP, HTTP/S, TCP/IP), моделей OSI/ISO, чтобы разбираться в инцидентах доступности.
- Операционные системы и СУБД: Уверенное знание ОС семейства Linux (чтение логов, работа в консоли) и Windows.
- Понимание основ работы баз данных (SQL/NoSQL), так как мониторинг тесно связан со сбором и хранением метрик.
- Администрирование и автоматизация: Понимание принципов DevOps (CI/CD)
- Методология мониторинга: Понимание различий между мониторингом «снаружи» (синтетика) и «изнутри», знание концепций «Золотых сигналов» (Latency, Traffic, Errors, Saturation).
- Управление инцидентами и проблемами: Опыт руководства процессом разбора аварий. Формирование постморетмов организация «разбора полетов» без поиска виноватых.
- Понимание процессов ITIL (Управление инцидентами, Проблемами, Изменениями и Уровнем сервиса — SLA). Умение формализовать работу сервиса как услуги.
- Управление метриками и SLA: Навык формализации требований к системе мониторинга (ЧТО мониторим и КАК часто), контроль соблюдения SLA (доступность сервиса мониторинга, время реакции на сбой датчика).
- Ведение документации: Умение требовать и поддерживать в актуальном состоянии базу знаний, схемы, инструкции для администраторов смежных сервисов.
- Управление мощностями (Capacity Management): Планирование расширения системы мониторинга (увеличение количества метрик, добавление новых сегментов сети).
- Понимание критичности: Умение классифицировать системы по уровню важности для бизнеса (Критичные -> Вспомогательные).
- Работа с подрядчиками: Опыт взаимодействия с вендорами систем мониторинга (обновления, лицензирование, открытие техподдержки).
- Управление качеством: Постоянное улучшение качества мониторинга (снижение количества ложных срабатываний, уменьшение времени детектирования проблем — MTTD).
Требования к кандидату:
- Опыт управления сервисом мониторинга от 2-х лет (администрирование и/или руководство командой).
- Глубокое знание систем мониторинга (например: Zabbix, Prometheus + Grafana, Victoria Metrics).
- Понимание процессов ITSM/ITIL (Управление инцидентами, Проблемами, Изменениями).
- Навыки работы с Linux
- Опыт формализации SLA и ведения отчетности по доступности сервисов.
- Развитые коммуникативные навыки, умение работать в режиме многозадачности и критических сбоев.
- Опыт внедрения сервисов с нуля