Senior Distributed Learning Engineer (Kandinsky)

СБЕР

Senior Distributed Learning Engineer (Kandinsky)

Описание вакансии

Мы разрабатываем мультимодальные диффузионные трансформеры (Text2Image, Text2Video, Text2Video+Audio, Instruct Editing), масштабируемые до десятков миллиардов параметров. Задача — создание инфраструктуры для эффективного обучения и оценки таких моделей на крупных GPU-кластерах.

Задачи:

  • разработка и оптимизация high-load пайплайнов распределенного обучения (PyTorch) с использованием FSDP, Tensor/Sequence Parallelism
  • создание мультимодальных подгрузчиков данных
  • создание системы метрического мониторинга параметров кластера, внутренних состояний модели и качества генерируемых сэмплов во время обучения
  • оптимизация коммуникации (NCCL), управление памятью и загрузкой каналов связи с хранилищем для максимизации утилизации кластера
  • проектирование отказоустойчивых checkpointing/resume механизмов для долгих экспериментов

Требования:

  • экспертный уровень Python, PyTorch, torch.distributed
  • глубокий опыт масштабного (1k+ GPU) обучения моделей с FSDP/TP/PP
  • Понимание нюансов mixed-precision training (bf16, fp8)
  • опыт отладки, профилирования и оптимизации распределенного кода (GDB, PyTorch Profiler)
  • бонус: Опыт с CUDA kernel optimization, компиляторами (TorchDynamo, Triton, ThunderKittens)
  • навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом

Условия:

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность быть соавтором НИРов и статей для международных конференций
  • возможность выбрать удобный формат работы: гибрид или офис
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
ICON GROUP

ML-инженер

ICON GROUP

Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

ДАЛКОС

ML-инженер

ДАЛКОС

Полный день
  • Москва

  • от 250000 RUR

Яндекс
Полный день
  • Москва

  • от 250000 RUR

Полный день
  • Москва

  • от 350000 RUR

Федеральное автономное учреждение Государственный Научно-Исследовательский Институт Авиационных Систем

Разработчик нейросетевых алгоритмов/Reinforcement Learning

Федеральное автономное учреждение Государственный Научно-Исследовательский Институт Авиационных Систем

Полный день
  • Москва

  • от 60000 RUR

Алфарма
Удаленная работа
  • Москва

  • от 60000 RUR

AL - инженер

Тесуджи

Удаленная работа
  • Москва

  • от 60000 RUR

НТЦ Ротек
Полный день
  • Москва

  • от 60000 RUR

Ozon
Удаленная работа
  • Москва

  • от 60000 RUR

СтандартПроект
Полный день
  • Москва

  • от 60000 RUR

Академия REMOTE TEAM
Удаленная работа
  • Москва

  • от 140000 RUR

Платформа ОФД

Data Engineer (Big Data)

Платформа ОФД

Полный день
  • Москва

  • от 140000 RUR

МАГНИТ, Розничная сеть

Senior campaign manager (Кампейн менеджер)

МАГНИТ, Розничная сеть

Полный день
  • Москва

  • от 140000 RUR

Альфа-Банк

ML-инженер

Альфа-Банк

Удаленная работа
  • Москва

  • до 160000 RUR

ИнфоТеКС

R&D engineer

ИнфоТеКС

Удаленная работа
  • Москва

  • до 160000 RUR

IT Solutions Management International Pte. Ltd.

ML Engineer

IT Solutions Management International Pte. Ltd.

Удаленная работа
  • Москва

  • до 117000 RUR

Онлайн-школа Тетрика

Data Engineer

Онлайн-школа Тетрика

Удаленная работа
  • Москва

  • до 117000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию