Чем предстоит заниматься:
- Руководство группой эксплуатации: постановка задач, приоритизация, контроль выполнения, развитие инженерной экспертизы команды.
- Организация и контроль эксплуатации кластеров Kubernetes (on-prem и в публичных облаках).
- Ответственность за управление инфраструктурными ресурсами в публичных облаках (Yandex.Cloud/VK.Cloud), включая планирование мощностей и оптимизацию затрат.
- Стратегическое планирование и развитие инфраструктурных и платформенных решений компании.
- Архитектурный и технический контроль изменений:
участие и финальное согласование Code Review инфраструктурных приложений и IaC,
контроль качества и единых стандартов.
- Развитие и стандартизация процессов Infrastructure as Code в команде.
- Организация и контроль внедрения практик GitOps / DevOps в инфраструктуре.
- Обеспечение актуальности и полноты технической документации, формирование эксплуатационных регламентов.
- Ответственность за эксплуатацию сред виртуализации (KVM) и обеспечение их отказоустойчивости и непрерывной работы.
- Организация эксплуатации и развития критически важных инфраструктурных сервисов: Redis, Elasticsearch, RabbitMQ, Kafka.
- Управление инцидентами на инфраструктуре, участие в разборе причин.
Что мы ожидаем:
- Опыт эксплуатации и архитектурного проектирования высоконагруженных систем оркестрации контейнеров (Kubernetes) — on-prem и в публичных облаках.
- Глубокое понимание подхода IaC и опыт его внедрения на уровне команды и организации (Terraform, Ansible).
- Опыт построения и развития систем мониторинга инфраструктуры и сервисов:
определение ключевых метрик,
проектирование дашбордов,
организация алертинга (VictoriaMetrics / Grafana).
- Понимание принципов построения и эксплуатации отказоустойчивых, высокодоступных и масштабируемых систем.
- Опыт организации процессов резервного копирования и восстановления инфраструктурных компонентов.
- Навыки технического лидерства: принятие архитектурных решений, наставничество, управление техническим долгом.
- Умение работать на стыке команд эксплуатации, разработки и архитектуры.
Будет плюсом:
- Опыт управления гибридной инфраструктурой.
- Понимание SRE-подходов и практик повышения надёжности.