Site reliability engineer (Engineering platform, Центр робототехники Сбера)

СБЕР

Site reliability engineer (Engineering platform, Центр робототехники Сбера)

Описание вакансии

Центр Робототехники — динамично развивающееся подразделение, специализирующееся на исследованиях и разработке решений в области робототехники, компьютерного зрения и машинного обучения. Наша MLOps Platform Engineering Team отвечает за построение надёжной и масштабируемой платформенной инфраструктуры, которая обеспечивает полный цикл разработки и эксплуатации ML-сервисов — от прототипирования до продакшен-решений в сфере робототехники.

Сейчас мы ищем SRE (Site Reliability Engineer), который поможет нам построить гибридную инфраструктуру, объединяющую локальные ресурсы Центра с облачной платформой Cloud.ru, а также создаст эффективные инструменты для утилизации GPU и Observability всех ресурсов.

Почему у нас круто:

  • Сложные технологические вызовы: Вы будете одним из ключевых инженеров, кто создаёт гибридную платформу для робототехнических решений в реальном производстве.
  • Влияние на продукт: Непосредственное участие в постановке задач и формировании архитектуры, результаты вашей работы видны сразу.
  • Развитие и экспертиза: Регулярные внутренние митапы по MLOps, DevOps и SRE, возможность влиять на технический ландшафт целого направления.
  • Инновационная среда: Работа в Центре Робототехники подразумевает тесное взаимодействие с учёными, исследователями и инженерами-робототехниками.

Обязанности

1.Проектирование и развёртывание гибридной инфраструктуры:

  • Объединение локального железа Центра Робототехники и облачных ресурсов Cloud.ru (advanced конфигурации).
  • Настройка сетевых связей, управление безопасностью и политиками доступа.

2.Инфраструктурное программирование (IaC):

  • Разработка и поддержка Terraform/Ansible/Pulumi скриптов для автоматического конфигурирования ресурсов.
  • Создание модульных и повторно используемых шаблонов, упрощающих дальнейшее масштабирование.

3.Разработка методики расчёта утилизации GPU:

  • Сбор метрик и анализ загрузки GPU (NVIDIA, AMD или другие в зависимости от стека).
  • Создание дашбордов и отчётов для принятия решений о ресурсном планировании и эффективности использования.

4.Построение системы Observability:

  • Внедрение инструментов для логирования, трассировки и мониторинга (Prometheus, Grafana, Jaeger и т.д.).
  • Разработка алертинг-стратегии (alerting), позволяющей оперативно реагировать на сбои в гибридном контуре.
  • Оптимизация и настройка мониторинга высоконагруженных сервисов, ML-пайплайнов и робототехнических модулей.

5.Участие в общей культуре SRE:

  • Совместная работа с командами разработчиков, ML-инженеров и DevOps, чтобы обеспечить надёжность сервисов.
  • Участие в планировании и проведении постмортемов, инцидент-менеджменте и постоянном улучшении инфраструктуры.

Требования

  • Уверенные навыки IaC: опыт работы с Terraform, Ansible или аналогичными инструментами для описания и управления инфраструктурой.
  • Опыт в настройке Observability: понимание принципов мониторинга, логирования и трассировки, опыт работы с Prometheus, Grafana, ELK/EFK, Jaeger и т.д.
  • Понимание GPU-среды: умение работать с GPU кластерами (NVIDIA, AMD), собирать метрики, анализировать производительность.
  • Знание основ сетевых протоколов и безопасности: настройка VPN/SSH-туннелей, работа с firewall, обеспечение безопасного доступа к ресурсам.
  • Практика в гибридных или мультиоблачных окружениях: настройка связи локального ЦОД и облачного провайдера (AWS, GCP, Azure, Cloud.ru и т.д.).
  • Желателен опыт SRE: понимание подходов SLO/SLI/SLA, error budget и методов управления надёжностью в распределённых системах.
  • Soft Skills: способность эффективно коммуницировать с другими командами (ML, Dev, QA), умение писать понятную документацию, готовность обучать коллег.

Условия

  • Офисный формат работы, возможность гибридного графика
  • Комфортный современный офис рядом с м. Кутузовская
  • Ежегодный пересмотр зарплаты, годовая премия
  • Корпоративный спортзал и зоны отдыха
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • Программа адаптации и помощь руководителя на старте
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • Ипотека для сотрудников выгоднее до 4%
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
Посмотреть контакты работодателя

Похожие вакансии

ГКУ Инфогород

Инженер MLOps

ГКУ Инфогород

Полный день
  • Москва

  • Не указана

Рекомендуем
SberTech
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
Swordfish Security
Удаленная работа
  • Москва

  • Не указана

Аренадата Софтвер

Инженер внедрения

Аренадата Софтвер

Полный день
  • Москва

  • Не указана

Альфа-Банк
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Cloud.ru
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Ozon
Удаленная работа
  • Москва

  • Не указана

VK
Удаленная работа
  • Москва

  • Не указана

Лемана ПРО

DevSecOps Инженер

Лемана ПРО

Удаленная работа
  • Москва

  • Не указана

Cloud.ru
Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

TradingView
Полный день
  • Москва

  • Не указана

LLC GFAGAMES

DevOps-инженер

LLC GFAGAMES

Удаленная работа
  • Москва

  • Не указана

Группа компаний Астра

Инженер (R&D RuPost)

Группа компаний Астра

Полный день
  • Москва

  • Не указана

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию