SRE-инженер

Cloud.ru

SRE-инженер

Москва, 2-я Звенигородская улица, 28

Описание вакансии

Мы растем и нам нужен SR-инженер уровня Senior/TechLead, который поможет нам сделать наши продукты надежными; который понимает, что надежность - это не только uptime, но и предсказуемость, удовлетворенность наших пользователей, душевное спокойствие инженеров и постоянная работа над процессами.

Если ты знаешь, как превратить SLO/SLI в работающую систему, а не просто красивые графики; умеешь предсказывать проблемы до того, как они станут инцидентами; уверен, что главное - довольные пользователи; можешь объяснить, почему error budget важнее "фичи, которую надо запилить к утру", понимаешь, что "починить сейчас" и "сделать, чтобы больше не ломалось" - это разные вещи; и для тебя incident/problem management — это процесс, а не героизм - то откликайся!

На этой позиции тебе предстоит:

  • управление надежностью сервисов: проектирование, внедрение и поддержка SLO/SLI, error budget, координация процесса соблюдения SLO, управление использованием Error Budget;
  • мониторинг и алертинг: разработка метрик, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
  • capacity planning: прогнозирование нагрузки и планирование ресурсов;
  • performance optimization: выявление и устранение bottleneck, оптимизация производительности;
  • incident & problem management: участие в устранении инцидентов (роль Incident Commander), расследование причин (RCA); ревью postmortems, разработка и внедрение corrective actions, при необходимости - заведение проблем и контроль их решения;
  • повышение отказоустойчивости: улучшение observability (логи, трейсы, метрики: обогащение, добавление, ревизия...);
  • ревью DRP, участие в качестве координатора в DRT, поддержание DRP в актуальном состоянии;
  • автоматизация: устранение рутины - IaC (Terraform/Ansible) и Python/Go/Bash;
  • менторство и обучение: проведение внутренних воркшопов для команд разработки по темам надёжности, observability, помощь в развитии навыков SRE у других инженеров.

Что мы ждем от кандидата:

  • экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... умение применять это практически для обеспечения надежности сервисов;
  • умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;
  • практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production;
  • эксперт в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
  • глубокие знания и понимание того, как работают сети на уровнях L2-L7;
  • опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем.

Было бы неплохо иметь:

  • системное мышление и умение анализировать сложные failure-сценарии, выявлять корневые причины, находить способы их устранения;
  • опыт написания и ревью технической документации (runbooks, postmortems...);
  • опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev).
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Skyeng
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
ДОМ.РФ

SRE-инженер

ДОМ.РФ

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Антиплагиат
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Банк ДОМ.РФ
Удаленная работа
  • Москва

  • Не указана

ЮНИМ
Удаленная работа
  • Москва

  • Не указана

3Logic Group

SRE-инженер

3Logic Group

Удаленная работа
  • Москва

  • Не указана

Финфрейм

SRE-инженер

Финфрейм

Удаленная работа
  • Москва

  • Не указана

Яндекс Практикум

Автор на курс «SRE инженер»

Яндекс Практикум

Удаленная работа
  • Москва

  • Не указана

WILDBERRIES
Удаленная работа
  • Москва

  • Не указана

Astrum Entertainment

SRE-инженер

Astrum Entertainment

Удаленная работа
  • Москва

  • Не указана

T2
Удаленная работа
  • Москва

  • Не указана

Rambler&Co

SRE-инженер

Rambler&Co

Удаленная работа
  • Москва

  • Не указана

РобоФинанс

SRE-инженер

РобоФинанс

Удаленная работа
  • Москва

  • Не указана

Инсейлс Рус

SRE-инженер

Инсейлс Рус

Удаленная работа
  • Москва

  • Не указана

Альфа-Банк

SRE- инженер /Java/ Senior

Альфа-Банк

Удаленная работа
  • Москва

  • Не указана

Руб Икс
Удаленная работа
  • Москва

  • до 250000 RUR

Т1
Удаленная работа
  • Москва

  • до 250000 RUR

Платёжный сервис А3

SRE-инженер

Платёжный сервис А3

Удаленная работа
  • Москва

  • до 250000 RUR

Digital Spirit
Удаленная работа
  • Москва

  • до 250000 RUR

БЮРО 1440

SRE-инженер

БЮРО 1440

Удаленная работа
  • Москва

  • до 250000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию