SRE Lead

Тбилиси, улица Жиули Шартава, 31/33

Описание вакансии

Команда HUB SRE отвечает за надёжность, доступность и производительность некоторых из самых критичных и нагруженных сервисов компании.

Наша инфраструктура — гибридная: сочетание облачных сервисов и собственных bare-metal серверов, каждый со своей операционной моделью и зонами отказа. Мы не просто поддерживаем системы в рабочем состоянии — мы проектируем надёжность как часть системы.

Задачи:

Руководить командой HUB SRE и развивать культуру, основанную на принципах
Определять, внедрять и продвигать SLO/SLI/error budgets для ключевых сервисов компании — делать надёжность измеримой и управляемой.
Владеть и развивать процессы incident management:
дежурства (on-call), структурированное реагирование на инциденты, blameless post-mortems и контроль выполнения action items.
Развивать observability
Менторить инженеров в SRE-подходе и практиках, помогать им развиваться и строить команду, сочетающую операционную зрелость и инженерные амбиции.

Ожидания от кандидата:

Подтверждённый опыт работы Engineering Manager / SRE Lead / Reliability Engineering Lead, управлявший командой инженеров.
Глубокое понимание SRE как дисциплины:
SLO/SLI, error budgets, классификация toil, capacity planning, incident management — не только инструменты, но и философия и организационные практики.
Сильный технический бэкграунд в:
backend-системах, Linux, сетях и распределённых системах.
Опыт работы с гибридной инфраструктурой: облака + bare-metal, понимание компромиссов по надёжности.
Опыт построения observability: мониторинг, алертинг, distributed tracing, информативные дашборды.
Опыт построения и оптимизации CI/CD для сложных multi-service систем.
Сильные навыки incident management: структурированное реагирование, blameless post-mortems и системные улучшения после инцидентов.
Отличные навыки коммуникации и people management, способность влиять на команды, которые не находятся в прямом подчинении.

Будет плюсом:

Опыт работы с high-load системами (миллионы запросов) с жёсткими требованиями по latency и availability.
Опыт эксплуатации bare-metal инфраструктуры:
provisioning, сети, работа с аппаратными сбоями.
Знакомство с chaos engineering или проактивным тестированием надёжности (game days, fault injection).
Опыт построения моделей компенсации за on-call, устойчивых графиков дежурств и систем эскалации.
Опыт performance engineering: profiling, load testing, анализ узких мест.
Знание Infrastructure-as-Code инструментов (Terraform, Ansible).

Мы готовы предложить:

Работа с первым по популярности продуктом в своей отрасли
Гибрид из офиса в Тбилиси
Помощь с релокацией
Оформление по ТК Грузии, конкурентную заработную плату
Гибкий график, адаптивное рабочее место и пространство для отдыха
ДМС, а также 100% компенсацию больничного листа
Компенсацию питания и неограниченное количество снеков круглосуточно
Компенсацию изучения английского языка, конференции и курсы под спонсорством компании
Тимбилдинги и корпоративные мероприятия.
Поддержка от HR-партнера, который поможет адаптироваться и решить любые вопросы.