Обязанности:
Контроль стабильности и доступности production-среды
Оперативное устранение инцидентов, влияющих на работоспособность прода
Проектирование, настройка и сопровождение отказоустойчивой, масштабируемой и наблюдаемой инфраструктуры
Автоматизация развёртывания, обновлений, резервного копирования и восстановления
Настройка и поддержка CI/CD-пайплайнов, обеспечение безопасного деплоя
Внедрение и сопровождение систем мониторинга, логирования и алертинга
Управление секретами и доступами, минимизация прав
Проведение обновлений, патчинга и аудита конфигураций
Реализация мер по защите инфраструктуры (в том числе от DDoS)
Требования:
Глубокое понимание инфраструктуры и подхода SRE (SLI, SLO, SLA, управление инцидентами, постмортемы, автоматизация восстановления, проактивное выявление сбоев)
Опыт проектирования и поддержки отказоустойчивых и масштабируемых систем
Навыки автоматизации и управления конфигурациями (Ansible, Terraform, Puppet, Chef и др.)
Умение разрабатывать идемпотентные, версионируемые и тестируемые конфигурации
Опыт работы с CI/CD (GitLab CI, GitHub Actions, Jenkins и др.), практики blue/green и canary-деплоев, откатов, feature-flagging
Опыт настройки систем мониторинга и наблюдаемости (Prometheus, Datadog, ELK, Loki, Jaeger и др.)
Умение выстраивать эффективную систему алертинга без избыточного «шума»
Понимание принципов информационной безопасности: управление секретами (Vault, AWS Secrets Manager), минимизация доступа, регулярный патчинг, аудит конфигураций
Знание best practices безопасной эксплуатации production-сред
Условия:
Оформление по ТК РФ
Возможность сотрудничества по ГПХ, ИП или самозанятости
Оплачиваемый отпуск
Предоставление ноутбука
Государственное казенное учреждение Московской Области «Центр Компетенций Госуправления»
Москва
до 330000 RUR