Site Reliability Engineer (SRE)

Звук

Site Reliability Engineer (SRE)

Москва, Поклонная улица, 3

Метро: Кутузовская

Описание вакансии

О роли

Мы ищем того, кто готов решать сложные задачи, погружаться в детали, быть хранителем стабильности и надежности наших сервисов. Если ты считаешь, что совершенство — это не цель, а путь, готов предлагать новые решения и внедрять передовые технологии, мы будем рады видеть тебя в нашей команде.

Почему это важно

Наша главная цель — поддерживать такие условия, при которых пользователи могут наслаждаться стабильностью и надежностью наших сервисов, открывая для себя новые горизонты звука.

Чем будешь заниматься у нас:

  • Внедрять системы мониторинга с использованием Jaeger, Prometheus, Grafana и ELK.
  • Настраивать сетевые политики в istio и правила деплоя.
  • Работать с облачными сервисами (IaaS, PaaS, SaaS).
  • Внедрять контроль за SLO и SLA, приоритизировать задачи разработки.
  • Проводить хаос-тестирования.
  • Создавать процесс реагирования и восстановления после сбоев.
  • Автоматизировать процесс инцидент-менеджмента, рутинные задачи, создавать ботов для отчетности с использованием Go или Python.

Технологии, с которыми будешь работать

  • Kubernetes: Управление кластером, обеспечение отказоустойчивости, сетевые политики, правила деплоя сервисов, масштабируемость.
  • Istio service mesh: Мониторинг SLI приложений, настройка сетевых настроек, таймауты, балансировка трафика, наблюдаемость.
  • Helm/Flux: Деплой продуктовых сервисов с помощью универсального helm чарта, а control-plane и monitoring с помощью flux.
  • Внутренние инструменты: Контроль SLA партнеров, бот контроля жизненного цикла инцидентов, сервис для поиска первопричины инцидентов с AI.
  • GitLab CI/CD: Внедрение паттернов отказоустойчивости, управление канареечными релизами, ускорение MTTR - среднее время до восстановления.
  • Jaeger: Наблюдаемость через метрики и трейсинг, поиск проблемных мест в производительности и инцидентах.
  • Prometheus/Grafana: Сбор метрик, мониторинг, настройка систем мониторинга.
  • ELK: Поиск аномалий в логах, анализ метрик из логов на дашбордах, внутренние экспортеры данных.
  • Go/Python: автоматизация задач, связанных с инцидент-менеджментом, отчетностью и т.п.
  • Cloud: IaaS, PaaS, SaaS: виртуальные машины, базы данных, кэширующие серверы, брокеры сообщений.

Успех в этой роли обеспечат:

  • Инцидент менеджмент - основное в работе SRE это настроить систему так, чтобы быстро реагировать на сбои, как можно быстрее их устранять и прорабатывать, исключая повторение в будущем. Внедрять автоматизацию, которая уменьшит время реакции и восстановления.
  • У тебя есть опыт работы со Kubernetes - ты знаешь зачем нужны основные типы ресурсов, что такое CRD и чем отличается от CR, чем являются операторы, а еще зачем может быть нужен preStop hook с sleep.
  • Идеология SRE - внедрение контроля за SLO и SLA, а также приоритизация задач разработки в связи с Error budget - это основные метрики, которые развивает и поддерживает SRE.
  • Хаос тестирование - тестировать систему preprod идентичную prod по трафику и конфигурации, имитируя инциденты, которые уже были проработаны или инструментами chaos тестирования.
  • Инструкции реагирования и планы восстановления - не менее важная часть в работе над инцидентами, правильная реакция на сбои уменьшает MTTR - среднее время до восстановления.

В Звуке мы предоставим тебе возможность реализовать твой профессиональный потенциал и достичь высоких результатов. Давай вместе создадим продукт, который сделает музыку еще ближе и понятнее каждому!

Навыки
  • Kubernetes
  • k8s
  • Linux
  • Gitlab
  • Docker
  • Grafana
  • Jaeger
  • Helm
  • Istio
  • SRE
  • Python
  • Git
  • Nginx
  • Golang
  • DNS
  • ELK
  • SLA
  • AWS
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Яндекс
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Нетология
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Lenkep recruitment

DevOps Engineer

Lenkep recruitment

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Риверстарт

SRE-инженер

Риверстарт

Удаленная работа
  • Москва

  • до 240000 RUR

Appie.tech
Удаленная работа
  • Москва

  • до 240000 RUR

Премиум Бонус
Удаленная работа
  • Москва

  • до 240000 RUR

Флант
Удаленная работа
  • Москва

  • до 240000 RUR

Pandaverse OÜ
Удаленная работа
  • Москва

  • до 240000 RUR

Orion soft
Удаленная работа
  • Москва

  • до 240000 RUR

Джем-Софт

DevOps-инженер

Джем-Софт

Удаленная работа
  • Москва

  • от 250000 RUR

RUTUBE
Удаленная работа
  • Москва

  • от 250000 RUR

Росгосстрах

DevOps-инженер

Росгосстрах

Удаленная работа
  • Москва

  • от 250000 RUR

Orion soft
Удаленная работа
  • Москва

  • от 250000 RUR

Social Media Holding

DevOps-инженер

Social Media Holding

Удаленная работа
  • Москва

  • до 300000 RUR

Лаборатория Касперского

DevOps-инженер (KCS)

Лаборатория Касперского

Удаленная работа
  • Москва

  • до 300000 RUR

Честный знак.рф

SRE-инженер (Ядро)

Честный знак.рф

Удаленная работа
  • Москва

  • до 300000 RUR

Яндекс
Удаленная работа
  • Москва

  • до 300000 RUR

Инфотек

SRE/DevOps engineer

Инфотек

Удаленная работа
  • Москва

  • до 300000 RUR

АФЛТ-Системс

DevSecOps-инженер (Senior)

АФЛТ-Системс

Удаленная работа
  • Москва

  • до 300000 RUR

Minervasoft
Удаленная работа
  • Москва

  • до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию