SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)

МФК ВЭББАНКИР

SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)

Описание вакансии

Наша команда ищет опытного SRE/DevOps инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE – вы нам подходите!

Чем предстоит заниматься:

  • Сопровождение, обеспечение бесперебойной работы и развитие микросервисной архитектуры на базе Kubernetes и Nomad.

  • Разработка и реализация стратегии мониторинга, настройка алертов на основе SLO и error budgets.

  • Организация и проведение постмортемов инцидентов, контроль внедрения корректирующих мер.

  • Оценка доступности сервисов, анализ деградаций с привязкой к бизнес-метрикам.

  • Разработка и реализация мероприятий по повышению надежности и доступности сервисов в облаке Yandex Cloud (включая архитектурные решения).

  • Сопровождение и развитие стеков мониторинга (Victoria Metrics), визуализации (Grafana) и логирования (GrayLog).

  • Автоматизация рутинных операций мониторинга.

  • Внедрение практик SRE в команду.

  • Управление error budget.

Мы ждем, что у вас есть:

  • Опыт разработки и поддержки SLI/SLO/SLA.

  • Экспертные знания Linux (CentOS, Debian, Ubuntu, AlmaLinux).

  • Опыт администрирования Yandex Cloud, AWS или аналогичных облачных платформ.

  • Опыт работы с IaC и CI/CD инструментами (Terraform, Helm, GitLab CI/CD).

  • Опыт администрирования и траблшутинга высоконагруженных кластеров Kubernetes (managed/unmanaged).

  • Глубокое знание систем мониторинга: Victoria Metrics, Prometheus, Grafana, Zabbix.

  • Навыки скриптования (Bash, Python, Go).

  • Опыт расследования инцидентов на основе логов и метрик.

  • Понимание сетевых технологий (уровень не ниже CCNA).

  • Навыки командной работы, ответственность, готовность помогать коллегам.

Будет большим плюсом:

  • Опыт работы с RabbitMQ и Kafka.

  • Знание принципов Chaos Engineering.

  • Знание security best practices (IAM, сетевые политики, шифрование).

  • Опыт работы с различными СУБД (MongoDB, PostgreSQL, Redis) – настройка, базовая оптимизация.

  • Опыт донесения технических SRE-метрик до бизнеса.

Мы предлагаем:

  • Официальное трудоустройство с полным соблюдением ТК РФ, социальные гарантии.

  • Оплачиваемые переработки (возникают достаточно редко).

  • Удаленный формат работы.

  • Крепкая команда экспертов: взаимопомощь, поддержка и возможность учиться у лучших.

  • Интересные задачи с использованием современных технологий, реальная возможность влиять на инфраструктуру и развивать свои навыки.

  • Работа в стабильной официальной ИТ-компании.

Навыки
  • Terraform
  • Helm
  • GitLab CI
  • Yandex Cloud
  • Grafana
  • Prometheus
  • Zabbix
Посмотреть контакты работодателя

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию