Управление стримом, направленным на надёжность и стабилизацию облачной инфраструктуры (заведение требований, трекинг задач, челлендж оценок и задач различных команд на предмет корректной технической реализации и их оценок)
Общее видение по стриму: какие процессы надо подтюнить, зрелость процессов, метрики, наполняемость дашбордов, SLO, SLI и т. д.
Разработка и сопровождение процессов управления инцидентами и проблемами, предложение своего видения, сами же процессы сквозные и тиражируются на несколько ступеней выше
Разработка мер по выполнению и повышению показателей: SLA, SLO, RTO, RPO, улучшение качества сервиса, например CSI как итог
Требования
Понимание реализации OpenStack
Опыт руководящей или координационной позиции эксплуатации высоконагруженных ИС от трёх лет
Реализация сквозных процессов эксплуатации с подтверждённым результатом
Опыт SLA-менеджмента, ведения отчётности, управления метриками, качеством