На этой позиции тебе предстоит:
- Отвечать за production;
- Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI, метрики, алерты, ранбуки и дашборды для продукта;
- Повышать наблюдаемость и надежность продукта;
- Участвовать в устранении аварий и последующей стабилизации продукта;
- Участвовать в заполнении и разборе постмортемов;
- Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
- Автоматизировать рутинную работу;
- Разрабатывать DRP;
- Участвовать в разработке процессов, используемых в работе.
Что мы ждем от кандидата:
- Свободно и на экспертном уровне работаете с Linux-системами и занимались их промышленной эксплуатацией;
- Понимаете SLO/SLI/SLA, умеете применять на практике;
- Имеете опыт работы с Grafana, Prometheus, k8s;
- Понимаете принципы IaC-подхода;
- Понимаете, как работают сети и умеете диагностировать и решать проблемы в их работе.
Дополнительно:
-
пишете на Go / Python / и т.п. в объеме, достаточном для автоматизации повседневной работы;
-
имеете практический опыт работы SRE;
-
знаете, как сделать отказоустойчивый масштабируемый сервис;
-
умеете работать с системами управления конфигурацией.