Центр Робототехники — динамично развивающееся подразделение, специализирующееся на исследованиях и разработке решений в области робототехники, компьютерного зрения и машинного обучения. Наша MLOps Platform Engineering Team отвечает за построение надёжной и масштабируемой платформенной инфраструктуры, которая обеспечивает полный цикл разработки и эксплуатации ML-сервисов — от прототипирования до продакшен-решений в сфере робототехники.
Сейчас мы ищем SRE (Site Reliability Engineer), который поможет нам построить гибридную инфраструктуру, объединяющую локальные ресурсы Центра с облачной платформой Cloud.ru, а также создаст эффективные инструменты для утилизации GPU и Observability всех ресурсов.
Почему у нас круто:
- Сложные технологические вызовы: Вы будете одним из ключевых инженеров, кто создаёт гибридную платформу для робототехнических решений в реальном производстве.
- Влияние на продукт: Непосредственное участие в постановке задач и формировании архитектуры, результаты вашей работы видны сразу.
- Развитие и экспертиза: Регулярные внутренние митапы по MLOps, DevOps и SRE, возможность влиять на технический ландшафт целого направления.
- Инновационная среда: Работа в Центре Робототехники подразумевает тесное взаимодействие с учёными, исследователями и инженерами-робототехниками.
Обязанности
1.Проектирование и развёртывание гибридной инфраструктуры:
- Объединение локального железа Центра Робототехники и облачных ресурсов Cloud.ru (advanced конфигурации).
- Настройка сетевых связей, управление безопасностью и политиками доступа.
2.Инфраструктурное программирование (IaC):
- Разработка и поддержка Terraform/Ansible/Pulumi скриптов для автоматического конфигурирования ресурсов.
- Создание модульных и повторно используемых шаблонов, упрощающих дальнейшее масштабирование.
3.Разработка методики расчёта утилизации GPU:
- Сбор метрик и анализ загрузки GPU (NVIDIA, AMD или другие в зависимости от стека).
- Создание дашбордов и отчётов для принятия решений о ресурсном планировании и эффективности использования.
4.Построение системы Observability:
- Внедрение инструментов для логирования, трассировки и мониторинга (Prometheus, Grafana, Jaeger и т.д.).
- Разработка алертинг-стратегии (alerting), позволяющей оперативно реагировать на сбои в гибридном контуре.
- Оптимизация и настройка мониторинга высоконагруженных сервисов, ML-пайплайнов и робототехнических модулей.
5.Участие в общей культуре SRE:
- Совместная работа с командами разработчиков, ML-инженеров и DevOps, чтобы обеспечить надёжность сервисов.
- Участие в планировании и проведении постмортемов, инцидент-менеджменте и постоянном улучшении инфраструктуры.
Требования
- Уверенные навыки IaC: опыт работы с Terraform, Ansible или аналогичными инструментами для описания и управления инфраструктурой.
- Опыт в настройке Observability: понимание принципов мониторинга, логирования и трассировки, опыт работы с Prometheus, Grafana, ELK/EFK, Jaeger и т.д.
- Понимание GPU-среды: умение работать с GPU кластерами (NVIDIA, AMD), собирать метрики, анализировать производительность.
- Знание основ сетевых протоколов и безопасности: настройка VPN/SSH-туннелей, работа с firewall, обеспечение безопасного доступа к ресурсам.
- Практика в гибридных или мультиоблачных окружениях: настройка связи локального ЦОД и облачного провайдера (AWS, GCP, Azure, Cloud.ru и т.д.).
- Желателен опыт SRE: понимание подходов SLO/SLI/SLA, error budget и методов управления надёжностью в распределённых системах.
- Soft Skills: способность эффективно коммуницировать с другими командами (ML, Dev, QA), умение писать понятную документацию, готовность обучать коллег.
Условия
- Офисный формат работы, возможность гибридного графика
- Комфортный современный офис рядом с м. Кутузовская
- Ежегодный пересмотр зарплаты, годовая премия
- Корпоративный спортзал и зоны отдыха
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- Программа адаптации и помощь руководителя на старте
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- Ипотека для сотрудников выгоднее до 4%
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров