Наша команда ищет опытного SRE/DevOps инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE – вы нам подходите!
Чем предстоит заниматься:
Сопровождение, обеспечение бесперебойной работы и развитие микросервисной архитектуры на базе Kubernetes и Nomad.
Разработка и реализация стратегии мониторинга, настройка алертов на основе SLO и error budgets.
Организация и проведение постмортемов инцидентов, контроль внедрения корректирующих мер.
Оценка доступности сервисов, анализ деградаций с привязкой к бизнес-метрикам.
Разработка и реализация мероприятий по повышению надежности и доступности сервисов в облаке Yandex Cloud (включая архитектурные решения).
Сопровождение и развитие стеков мониторинга (Victoria Metrics), визуализации (Grafana) и логирования (GrayLog).
Автоматизация рутинных операций мониторинга.
Внедрение практик SRE в команду.
Управление error budget.
Мы ждем, что у вас есть:
Опыт разработки и поддержки SLI/SLO/SLA.
Экспертные знания Linux (CentOS, Debian, Ubuntu, AlmaLinux).
Опыт администрирования Yandex Cloud, AWS или аналогичных облачных платформ.
Опыт работы с IaC и CI/CD инструментами (Terraform, Helm, GitLab CI/CD).
Опыт администрирования и траблшутинга высоконагруженных кластеров Kubernetes (managed/unmanaged).
Глубокое знание систем мониторинга: Victoria Metrics, Prometheus, Grafana, Zabbix.
Навыки скриптования (Bash, Python, Go).
Опыт расследования инцидентов на основе логов и метрик.
Понимание сетевых технологий (уровень не ниже CCNA).
Навыки командной работы, ответственность, готовность помогать коллегам.
Будет большим плюсом:
Опыт работы с RabbitMQ и Kafka.
Знание принципов Chaos Engineering.
Знание security best practices (IAM, сетевые политики, шифрование).
Опыт работы с различными СУБД (MongoDB, PostgreSQL, Redis) – настройка, базовая оптимизация.
Опыт донесения технических SRE-метрик до бизнеса.
Мы предлагаем:
Официальное трудоустройство с полным соблюдением ТК РФ, социальные гарантии.
Оплачиваемые переработки (возникают достаточно редко).
Удаленный формат работы.
Крепкая команда экспертов: взаимопомощь, поддержка и возможность учиться у лучших.
Интересные задачи с использованием современных технологий, реальная возможность влиять на инфраструктуру и развивать свои навыки.
Работа в стабильной официальной ИТ-компании.