Выстраивать высокотехнологичное окружение эксплуатации - мониторинг, ci/cd, обеспечение безопасности и катастроф устойчивости
Планировать и проводить работы на тестовых инсталляциях
Оказывать консультации о параметрах работы системы, локализовывать проблемы, эскалировать баги на разработчиков, участвовать в развитии архитектуры систем
Повышать наблюдаемость приложений
Документировать активности в wiki/системах трекинга, описывать архитектуру взаимодействия компонентов, процедур обновления
Взаимодействовать с разработчиками продукта, QA, DevOps
Участвовать в развитии SRE практик компании
Проведение работ по повышению отказоустойчивости и масштабируемости сервисов
Необходимые навыки:
Знание теории SRE (SLA\SLO\SLI, Observability, Postmortem итд)
Уверенные знания в установке, настройке и администрировании ПО под Linux
Опыт работы с командными оболочками Linux (обработка журналов событий– awk, sed, написание скриптов для автоматизации и облегчения выполнения задач, и т.п.), знание python/go на базовом уровне
Навыки DevOps, эксплуатация и поддержка готовых CI/CD окружений (Gitlab/Jenkins), работа с Terraform/Ansible
Навыки работы с Docker, Kubernetes, диагностика проблем, эксплуатация и поддержка
Опыт работы с системами мониторинга Prometheus stack, Grafana и т.п.
Опыт работы с инцидентами – анализировать, решать, передавать на следующую линию, учитывать в баг-треккинговой системе