Ведущий инженер систем резервного копирования

Москва, проезд Завода Серп и Молот, 10

Метро: Авиамоторная

Показать контакты

Описание вакансии

Комус – ведущий производитель и комплексный поставщик товаров и услуг для бизнеса.

IT-ландшафт включает в себя собственные ЦОДы, мощности в облаках и 100 бизнес-приложений, 40 из которых – крупные.

Сегодня ИТ-подразделение Комус – это аккредитованная ИТ-компания, численностью свыше 900 сотрудников.

Мы реализуем амбициозную программу цифровой трансформации, и в нашей команде открыта вакансия ведущего инженера систем резервного копирования.

ПРЕДЛАГАЕМ

Конкурентный доход (обсуждаем индивидуально)
Официальное оформление по ТК РФ в аккредитованную ИТ-компанию
Гибридный или удаленный формат работы (гибкость и индивидуальный подход), график 5/2 с 9.00 до 18.00
Удобную локацию – новый современный офис БЦ «Интеграл» в пешей доступности от ст. м. Авиамоторная
Развитую офисную инфраструктуру: кофе-поинты с бесплатными напитками и снеками, корпоративный бесплатный фитнес-центр и игровые пространства
ДМС.
Корпоративную программу лояльности и скидок (товары и услуги, развлечения, рестораны, спорт, отдых и многое другое)
Абонементы в фитнес-клубы по специальным условиям
Дополнительное премирование в рамках реферальной программы «Все в Комус»
Корпоративное обучение и поддержка опытного наставника
Возможности для развития и карьерного роста
Драйвовые мероприятия и подарки к праздникам для сотрудников и их семей

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ

Проектировать и развивать архитектуру резервного копирования и восстановления для инфраструктуры, ключевых платформенных сервисов и Кubernetes
Формировать и поддерживать политику бэкапов: классы данных, SLA, RPO/RTO, схемы хранения (retention)
Настраивать и сопровождать системы резервного копирования: задания, репозитории, прокси, каталоги, дедупликация/компрессия
Организовывать хранение копий в разных слоях (в т.ч. объектное S3/Ceph), обеспечивать изоляцию и устойчивость к инцидентам
Выстраивать процессы регулярного тестирования восстановления: restore drills, контроль успешности, отчётность, документирование runbooks
Совместно с владельцами систем развивать бэкап/восстановление для PostgreSQL/ClickHouse/Elasticsearch: выбор подходов (PITR, снапшоты, логические/физические), контроль корректности и воспроизводимости
Настраивать наблюдаемость: метрики/алерты по успешности бэкапов, времени окон, объёмам, заполнению репозиториев, скорости восстановления; корреляция событий по метрикам и логам (Grafana/Prometheus/Loki)
При необходимости интегрировать проверки (например, “контроль восстановления”, валидация артефактов, отчётность) в GitLab CI: артефакты, отчёты, пороговые критерии
Управлять инфраструктурой в парадигме IaC с использованием Terraform и внедрять GitOps для управления состоянием Kubernetes-приложений с помощью ArgoCD
Автоматизировать рутинные процессы
Проактивно видеть проблемы в будущем и предлагать их решение
Обеспечивать безопасность, отказоустойчивость и мониторинг платформы
Влиять на архитектуру кластеров для повышения её доступности, стабильности и быстродействия
Расследование инцидентов и поиск решений для предотвращения их в будущем

ДЛЯ НАС ВАЖНЫ

Опыт работы инженером (DevOps/SRE/Platform Engineer) от 2-х лет
Опыт эксплуатации/построения систем резервного копирования
Понимание ключевых принципов: RPO/RTO, retention, full/incremental/synthetic.
Уверенно владеете Terraform и понимаете принципы IaC (Infrastructure as Code).
Понимание микросервисной архитектуры и зависимостей (БД/очереди/LB), достаточное для корректного планирования backup/restore и оценки рисков восстановления сервисов “как системы”.
Умение работать с мониторингом и логами: Grafana/Prometheus (метрики), Loki (логи), корреляция метрик между слоями.
Понимание принципов CI/CD и опыт интеграции тестов в GitLab CI (отчетность, артефакты, пороговые критерии).
Уверенные знания Linux и сетей (TCP/IP, DNS, TLS, LB, firewall) — чтобы диагностировать окна бэкапа, пропускную способность, таймауты, доступность репозиториев и сервисов.
Знание языков программирования Python, Go на уровне скриптов.
Готовность работать в команде, аргументировать выводы, участвовать в разборе инцидентов и помогать внедрять улучшения, участвовать в код-ревью и писать понятный, поддерживаемый код для инфраструктуры

БУДЕТ ПЛЮСОМ

Опыт Kubernetes (Helm, операторы, troubleshooting) и понимание подходов к бэкапу Kubernetes (ETCD, PV/PVC, namespace restore)
Опыт с S3/Ceph
Опыт работы с ArgoCD
Опыт работы с облачными провайдерами (DataLine,VK,Yandex,SberCloud)
Опыт построения высокодоступных систем