Вакансия SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг) в городе Москва

Описание вакансии

Наша команда ищет опытного SRE/DevOps инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE – вы нам подходите!

Чем предстоит заниматься:

Сопровождение, обеспечение бесперебойной работы и развитие микросервисной архитектуры на базе Kubernetes и Nomad.
Разработка и реализация стратегии мониторинга, настройка алертов на основе SLO и error budgets.
Организация и проведение постмортемов инцидентов, контроль внедрения корректирующих мер.
Оценка доступности сервисов, анализ деградаций с привязкой к бизнес-метрикам.
Разработка и реализация мероприятий по повышению надежности и доступности сервисов в облаке Yandex Cloud (включая архитектурные решения).
Сопровождение и развитие стеков мониторинга (Victoria Metrics), визуализации (Grafana) и логирования (GrayLog).
Автоматизация рутинных операций мониторинга.
Внедрение практик SRE в команду.
Управление error budget.

Мы ждем, что у вас есть:

Опыт разработки и поддержки SLI/SLO/SLA.
Экспертные знания Linux (CentOS, Debian, Ubuntu, AlmaLinux).
Опыт администрирования Yandex Cloud, AWS или аналогичных облачных платформ.
Опыт работы с IaC и CI/CD инструментами (Terraform, Helm, GitLab CI/CD).
Опыт администрирования и траблшутинга высоконагруженных кластеров Kubernetes (managed/unmanaged).
Глубокое знание систем мониторинга: Victoria Metrics, Prometheus, Grafana, Zabbix.
Навыки скриптования (Bash, Python, Go).
Опыт расследования инцидентов на основе логов и метрик.
Понимание сетевых технологий (уровень не ниже CCNA).
Навыки командной работы, ответственность, готовность помогать коллегам.

Будет большим плюсом:

Опыт работы с RabbitMQ и Kafka.
Знание принципов Chaos Engineering.
Знание security best practices (IAM, сетевые политики, шифрование).
Опыт работы с различными СУБД (MongoDB, PostgreSQL, Redis) – настройка, базовая оптимизация.
Опыт донесения технических SRE-метрик до бизнеса.

Мы предлагаем:

Официальное трудоустройство с полным соблюдением ТК РФ, социальные гарантии.
Оплачиваемые переработки (возникают достаточно редко).
Удаленный формат работы.
Крепкая команда экспертов: взаимопомощь, поддержка и возможность учиться у лучших.
Интересные задачи с использованием современных технологий, реальная возможность влиять на инфраструктуру и развивать свои навыки.
Работа в стабильной официальной ИТ-компании.

Навыки

Terraform
Helm
GitLab CI
Yandex Cloud
Grafana
Prometheus
Zabbix

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
Полная занятость, Удаленная работа
Опыт работы
От 3 до 6 лет
Дата размещения:
05.08.2025 09:26:47

SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)

SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)

Описание вакансии

Навыки

Краткое описание вакансии

Зарплата

Занятость

Опыт работы

Дата размещения:

Похожие вакансии

Хотите оставить вакансию?