Инженер 2 линии поддержки

Москва, Ленинградский проспект, 35

Метро: Динамо

Описание вакансии

Мы ищем специалиста, который будет анализировать инциденты, восстанавливать цепочки событий в микросервисах, работать с логами и метриками, мониторить систему и взаимодействовать с командами для быстрого решения проблем.

Чем предстоит заниматься:

Обработка заявок пользователей и их корректная классификация для дальнейшей работы. (внутренние пользователи)
Оперативная реакция на инциденты, включая их диагностику и устранение типичных проблем, с минимальным вмешательством команды разработки.
Умение восстанавливать цепочку событий в распределенной системе (микросервисы), понимать их взаимосвязь, формулирование гипотез причин инцидентов и их проверка.
Углубленное разбирательство в сложных инцидентах, подготовка информации и передача на 3-ю линию поддержки, если инцидент требует дальнейшего вмешательства внутренних разработчиков.
Эскалация и ведение инцидентов/багов с техническими командами (поддержкой) партнеров, если проблема на их стороне.
Регулярный мониторинг состояния системы, включая использование инструментов мониторинга и логирования для контроля за состоянием сервисов.
Проактивное выявление аномалий до срабатывания алертов (рост latency, memory leak, увеличение retry, рост error-rate, etc.).

Мы ожидаем:

Опыт работы в роли инженера технической поддержки, предпочтительно в сфере информационных технологий и высоконагруженных систем от 2-х лет.
Способность анализировать логи для выявления ключевых проблем и инцидентов, понимание различий между logs / metrics / traces.
Уверенный опыт работы с REST API, включая использование инструментов для тестирования и документирования сервисов (Postman, Swagger и аналогичные).
Навыки анализа логов в системах наблюдаемости (Grafana (Loki), Kibana или аналогах): поиск технических ошибок, выявление первопричин, восстановление цепочки событий и консолидация данных для последующей диагностики.
Опыт работы с системой JIRA для отслеживания инцидентов и багов.

Будет плюсом:

Опыт в настройке и поддержке мониторинга для различных уровней системы (от приложений до серверной инфраструктуры)
Способность к детальной проработке инцидентов, чтобы предотвратить повторение проблем в будущем
Знание и опыт работы в окружении микросервисов, включая взаимодействие различных компонентов системы будет плюсом
Понимание HTTP-кодов, TCP/SSL handshake, сетевых ошибок, работы брокеров сообщений (RabbitMQ), принципов idempotency и retry-логики
Преимуществом станет знание helm chart, принципов работы с контейнерами и оркестраторами (Kubernetes) и сервис-меш Linkerd

Посмотреть контакты работодателя