Senior Distributed Learning Engineer (Core Infrastructure & Training)

СБЕР

Senior Distributed Learning Engineer (Core Infrastructure & Training)

Описание вакансии

Разрабатываем мультимодальные диффузионные трансформеры (Text2Image, Text2Video, Text2Video+Audio, Instruct Editing), масштабируемые до десятков миллиардов параметров. Задача — создание инфраструктуры для эффективного обучения и оценки таких моделей на крупных GPU-кластерах.

Обязанности

  • разработка и оптимизация high-load пайплайнов распределенного обучения (PyTorch) с использованием FSDP, Tensor/Sequence Parallelism
  • создание мультимодальных подгрузчиков данных
  • создание системы метрического мониторинга параметров кластера, внутренних состояний модели и качества генерируемых сэмплов во время обучения
  • оптимизация коммуникации (NCCL), управление памятью и загрузкой каналов связи с хранилищем для максимизации утилизации кластера
  • проектирование отказоустойчивых checkpointing/resume механизмов для долгих экспериментов.

Требования

  • экспертный уровень Python, PyTorch, torch.distributed
  • глубокий опыт масштабного (1k+ GPU) обучения моделей с FSDP/TP/PP
  • Понимание нюансов mixed-precision training (bf16, fp8)
  • опыт отладки, профилирования и оптимизации распределенного кода (GDB, PyTorch Profiler)
  • бонус: Опыт с CUDA kernel optimization, компиляторами (TorchDynamo, Triton, ThunderKittens)
  • навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.

Условия

  • ежегодный пересмотр зарплаты, годовую премию
  • корпоративный спортзал и зоны отдыха
  • уникальную систему обучения Сбера для профессионального развития
  • расширенный ДМС и льготное страхование для семьи
  • бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративную пенсионную программу.
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
Делимобиль
Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

МАГНИТ, Розничная сеть

Senior ML Engineer (Promo)

МАГНИТ, Розничная сеть

Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

ЦУМ, ТД
Удаленная работа
  • Москва

  • Не указана

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Chief Data Scientist

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день
  • Москва

  • Не указана

SL Soft
Удаленная работа
  • Москва

  • Не указана

Полный день
  • Москва

  • от 350000 RUR

Ozon
Полный день
  • Москва

  • от 350000 RUR

СБЕР
Полный день
  • Москва

  • от 350000 RUR

Кронослаб
Полный день
  • Москва

  • от 350000 RUR

СБЕР
Полный день
  • Москва

  • от 350000 RUR

Оператор Газпром ИД

ML-инженер (search engine, NLP)

Оператор Газпром ИД

Удаленная работа
  • Москва

  • от 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию