Комус – ведущий производитель и комплексный поставщик товаров и услуг для бизнеса.
IT-ландшафт включает в себя собственные ЦОДы, мощности в облаках и 100 бизнес-приложений, 40 из которых – крупные.
Сегодня ИТ-подразделение Комус – это аккредитованная ИТ-компания, численностью свыше 900 сотрудников.
Мы реализуем амбициозную программу цифровой трансформации, и в нашей команде открыта вакансия ведущего инженера систем резервного копирования.
ПРЕДЛАГАЕМ
- Конкурентный доход (обсуждаем индивидуально)
- Официальное оформление по ТК РФ в аккредитованную ИТ-компанию
- Гибридный или удаленный формат работы (гибкость и индивидуальный подход), график 5/2 с 9.00 до 18.00
- Удобную локацию – новый современный офис БЦ «Интеграл» в пешей доступности от ст. м. Авиамоторная
- Развитую офисную инфраструктуру: кофе-поинты с бесплатными напитками и снеками, корпоративный бесплатный фитнес-центр и игровые пространства
- ДМС.
-
Корпоративную программу лояльности и скидок (товары и услуги, развлечения, рестораны, спорт, отдых и многое другое)
-
Абонементы в фитнес-клубы по специальным условиям
-
Дополнительное премирование в рамках реферальной программы «Все в Комус»
-
Корпоративное обучение и поддержка опытного наставника
-
Возможности для развития и карьерного роста
-
Драйвовые мероприятия и подарки к праздникам для сотрудников и их семей
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ
- Проектировать и развивать архитектуру резервного копирования и восстановления для инфраструктуры, ключевых платформенных сервисов и Кubernetes
- Формировать и поддерживать политику бэкапов: классы данных, SLA, RPO/RTO, схемы хранения (retention)
- Настраивать и сопровождать системы резервного копирования: задания, репозитории, прокси, каталоги, дедупликация/компрессия
- Организовывать хранение копий в разных слоях (в т.ч. объектное S3/Ceph), обеспечивать изоляцию и устойчивость к инцидентам
- Выстраивать процессы регулярного тестирования восстановления: restore drills, контроль успешности, отчётность, документирование runbooks
- Совместно с владельцами систем развивать бэкап/восстановление для PostgreSQL/ClickHouse/Elasticsearch: выбор подходов (PITR, снапшоты, логические/физические), контроль корректности и воспроизводимости
- Настраивать наблюдаемость: метрики/алерты по успешности бэкапов, времени окон, объёмам, заполнению репозиториев, скорости восстановления; корреляция событий по метрикам и логам (Grafana/Prometheus/Loki)
- При необходимости интегрировать проверки (например, “контроль восстановления”, валидация артефактов, отчётность) в GitLab CI: артефакты, отчёты, пороговые критерии
- Управлять инфраструктурой в парадигме IaC с использованием Terraform и внедрять GitOps для управления состоянием Kubernetes-приложений с помощью ArgoCD
- Автоматизировать рутинные процессы
- Проактивно видеть проблемы в будущем и предлагать их решение
- Обеспечивать безопасность, отказоустойчивость и мониторинг платформы
- Влиять на архитектуру кластеров для повышения её доступности, стабильности и быстродействия
- Расследование инцидентов и поиск решений для предотвращения их в будущем
ДЛЯ НАС ВАЖНЫ
- Опыт работы инженером (DevOps/SRE/Platform Engineer) от 2-х лет
- Опыт эксплуатации/построения систем резервного копирования
- Понимание ключевых принципов: RPO/RTO, retention, full/incremental/synthetic.
- Уверенно владеете Terraform и понимаете принципы IaC (Infrastructure as Code).
- Понимание микросервисной архитектуры и зависимостей (БД/очереди/LB), достаточное для корректного планирования backup/restore и оценки рисков восстановления сервисов “как системы”.
- Умение работать с мониторингом и логами: Grafana/Prometheus (метрики), Loki (логи), корреляция метрик между слоями.
- Понимание принципов CI/CD и опыт интеграции тестов в GitLab CI (отчетность, артефакты, пороговые критерии).
- Уверенные знания Linux и сетей (TCP/IP, DNS, TLS, LB, firewall) — чтобы диагностировать окна бэкапа, пропускную способность, таймауты, доступность репозиториев и сервисов.
- Знание языков программирования Python, Go на уровне скриптов.
- Готовность работать в команде, аргументировать выводы, участвовать в разборе инцидентов и помогать внедрять улучшения, участвовать в код-ревью и писать понятный, поддерживаемый код для инфраструктуры
БУДЕТ ПЛЮСОМ