Site reliability engineer (Engineering platform, Центр робототехники Сбера)

Описание вакансии

Центр Робототехники — динамично развивающееся подразделение, специализирующееся на исследованиях и разработке решений в области робототехники, компьютерного зрения и машинного обучения. Наша MLOps Platform Engineering Team отвечает за построение надёжной и масштабируемой платформенной инфраструктуры, которая обеспечивает полный цикл разработки и эксплуатации ML-сервисов — от прототипирования до продакшен-решений в сфере робототехники.

Сейчас мы ищем SRE (Site Reliability Engineer), который поможет нам построить гибридную инфраструктуру, объединяющую локальные ресурсы Центра с облачной платформой Cloud.ru, а также создаст эффективные инструменты для утилизации GPU и Observability всех ресурсов.

Почему у нас круто:

Сложные технологические вызовы: Вы будете одним из ключевых инженеров, кто создаёт гибридную платформу для робототехнических решений в реальном производстве.
Влияние на продукт: Непосредственное участие в постановке задач и формировании архитектуры, результаты вашей работы видны сразу.
Развитие и экспертиза: Регулярные внутренние митапы по MLOps, DevOps и SRE, возможность влиять на технический ландшафт целого направления.
Инновационная среда: Работа в Центре Робототехники подразумевает тесное взаимодействие с учёными, исследователями и инженерами-робототехниками.

Обязанности

1.Проектирование и развёртывание гибридной инфраструктуры:

Объединение локального железа Центра Робототехники и облачных ресурсов Cloud.ru (advanced конфигурации).
Настройка сетевых связей, управление безопасностью и политиками доступа.

2.Инфраструктурное программирование (IaC):

Разработка и поддержка Terraform/Ansible/Pulumi скриптов для автоматического конфигурирования ресурсов.
Создание модульных и повторно используемых шаблонов, упрощающих дальнейшее масштабирование.

3.Разработка методики расчёта утилизации GPU:

Сбор метрик и анализ загрузки GPU (NVIDIA, AMD или другие в зависимости от стека).
Создание дашбордов и отчётов для принятия решений о ресурсном планировании и эффективности использования.

4.Построение системы Observability:

Внедрение инструментов для логирования, трассировки и мониторинга (Prometheus, Grafana, Jaeger и т.д.).
Разработка алертинг-стратегии (alerting), позволяющей оперативно реагировать на сбои в гибридном контуре.
Оптимизация и настройка мониторинга высоконагруженных сервисов, ML-пайплайнов и робототехнических модулей.

5.Участие в общей культуре SRE:

Совместная работа с командами разработчиков, ML-инженеров и DevOps, чтобы обеспечить надёжность сервисов.
Участие в планировании и проведении постмортемов, инцидент-менеджменте и постоянном улучшении инфраструктуры.

Требования

Уверенные навыки IaC: опыт работы с Terraform, Ansible или аналогичными инструментами для описания и управления инфраструктурой.
Опыт в настройке Observability: понимание принципов мониторинга, логирования и трассировки, опыт работы с Prometheus, Grafana, ELK/EFK, Jaeger и т.д.
Понимание GPU-среды: умение работать с GPU кластерами (NVIDIA, AMD), собирать метрики, анализировать производительность.
Знание основ сетевых протоколов и безопасности: настройка VPN/SSH-туннелей, работа с firewall, обеспечение безопасного доступа к ресурсам.
Практика в гибридных или мультиоблачных окружениях: настройка связи локального ЦОД и облачного провайдера (AWS, GCP, Azure, Cloud.ru и т.д.).
Желателен опыт SRE: понимание подходов SLO/SLI/SLA, error budget и методов управления надёжностью в распределённых системах.
Soft Skills: способность эффективно коммуницировать с другими командами (ML, Dev, QA), умение писать понятную документацию, готовность обучать коллег.

Условия

Офисный формат работы, возможность гибридного графика
Комфортный современный офис рядом с м. Кутузовская
Ежегодный пересмотр зарплаты, годовая премия
Корпоративный спортзал и зоны отдыха
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
Программа адаптации и помощь руководителя на старте
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
Ипотека для сотрудников выгоднее до 4%
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров