Разрабатываем мультимодальные диффузионные трансформеры (Text2Image, Text2Video, Text2Video+Audio, Instruct Editing), масштабируемые до десятков миллиардов параметров. Задача — создание инфраструктуры для эффективного обучения и оценки таких моделей на крупных GPU-кластерах.
Обязанности
- разработка и оптимизация high-load пайплайнов распределенного обучения (PyTorch) с использованием FSDP, Tensor/Sequence Parallelism
- создание мультимодальных подгрузчиков данных
- создание системы метрического мониторинга параметров кластера, внутренних состояний модели и качества генерируемых сэмплов во время обучения
- оптимизация коммуникации (NCCL), управление памятью и загрузкой каналов связи с хранилищем для максимизации утилизации кластера
- проектирование отказоустойчивых checkpointing/resume механизмов для долгих экспериментов.
Требования
- экспертный уровень Python, PyTorch, torch.distributed
- глубокий опыт масштабного (1k+ GPU) обучения моделей с FSDP/TP/PP
- Понимание нюансов mixed-precision training (bf16, fp8)
- опыт отладки, профилирования и оптимизации распределенного кода (GDB, PyTorch Profiler)
- бонус: Опыт с CUDA kernel optimization, компиляторами (TorchDynamo, Triton, ThunderKittens)
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.
Условия
- ежегодный пересмотр зарплаты, годовую премию
- корпоративный спортзал и зоны отдыха
- уникальную систему обучения Сбера для профессионального развития
- расширенный ДМС и льготное страхование для семьи
- бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративную пенсионную программу.