Мы ищем специалиста, который будет анализировать инциденты, восстанавливать цепочки событий в микросервисах, работать с логами и метриками, мониторить систему и взаимодействовать с командами для быстрого решения проблем.
Чем предстоит заниматься:
- Обработка заявок пользователей и их корректная классификация для дальнейшей работы. (внутренние пользователи)
- Оперативная реакция на инциденты, включая их диагностику и устранение типичных проблем, с минимальным вмешательством команды разработки.
- Умение восстанавливать цепочку событий в распределенной системе (микросервисы), понимать их взаимосвязь, формулирование гипотез причин инцидентов и их проверка.
- Углубленное разбирательство в сложных инцидентах, подготовка информации и передача на 3-ю линию поддержки, если инцидент требует дальнейшего вмешательства внутренних разработчиков.
- Эскалация и ведение инцидентов/багов с техническими командами (поддержкой) партнеров, если проблема на их стороне.
- Регулярный мониторинг состояния системы, включая использование инструментов мониторинга и логирования для контроля за состоянием сервисов.
- Проактивное выявление аномалий до срабатывания алертов (рост latency, memory leak, увеличение retry, рост error-rate, etc.).
Мы ожидаем:
- Опыт работы в роли инженера технической поддержки, предпочтительно в сфере информационных технологий и высоконагруженных систем от 2-х лет.
- Способность анализировать логи для выявления ключевых проблем и инцидентов, понимание различий между logs / metrics / traces.
- Уверенный опыт работы с REST API, включая использование инструментов для тестирования и документирования сервисов (Postman, Swagger и аналогичные).
- Навыки анализа логов в системах наблюдаемости (Grafana (Loki), Kibana или аналогах): поиск технических ошибок, выявление первопричин, восстановление цепочки событий и консолидация данных для последующей диагностики.
- Опыт работы с системой JIRA для отслеживания инцидентов и багов.
Будет плюсом:
- Опыт в настройке и поддержке мониторинга для различных уровней системы (от приложений до серверной инфраструктуры)
- Способность к детальной проработке инцидентов, чтобы предотвратить повторение проблем в будущем
- Знание и опыт работы в окружении микросервисов, включая взаимодействие различных компонентов системы будет плюсом
- Понимание HTTP-кодов, TCP/SSL handshake, сетевых ошибок, работы брокеров сообщений (RabbitMQ), принципов idempotency и retry-логики
- Преимуществом станет знание helm chart, принципов работы с контейнерами и оркестраторами (Kubernetes) и сервис-меш Linkerd