Обеспечивать заданный уровень SLA для сервисов компании;
Разработка и контроль метрик производительности, надежности;
Анализировать сервисы и интеграции между сервисами и принимать меры для предотвращения инцидентов;
Проводить postmortem-ы и разрабатывать мероприятия для повышения стабильности сервисов;
Подготавливать DRP, BCP и проводить регулярные учения по отказам с последующим анализом результатов;
Осуществлять мониторинг сервисов в production для предупреждения аварийных ситуаций и обеспечения своевременной реакции на такие ситуации команды разработки.
Требования:
Опыт работы в роли инженера Dev/DevOps/SRE/Sysadm от года;
Опыт работы с высоконагруженными системами в production от года;
Понимание принципов SRE;
Опыт работы и понимание принципов обеспечения High availability в различных решениях (K8S, GCP и пр.);
Опыт работы с Linux, Git, Gitlab CI
Навыки автоматизации при решении задач (Bash), а также чтение и понимание кода;
Опыт работы с инструментами управления конфигурациями (Terraform, Ansible и пр.);
Опыт работы с Grafana, Grafana agent, Grafana loki, Prometheus.
Условия:
Оформление согласно ТК РФ, белая заработная плата;
Возможность выбора места работы: офис/гибрид/удаленный формат;
Расширенное ДМС со стоматологией;
Доплата больничного листа до 14 календарных дней в году;
Дополнительные дни к отпуску;
Специальные тарифы на банковские продукты для сотрудников;
Корпоративный спорт: йога, волейбол, баскетбол;
Скидки на партнерские программы;
Работа в комфортабельном офисе в шаговой доступности от метро;