Senior Distributed Learning Engineer (Core Infrastructure & Training)

Senior Distributed Learning Engineer (Core Infrastructure & Training)

Показать контакты

Описание вакансии

Разрабатываем мультимодальные диффузионные трансформеры (Text2Image, Text2Video, Text2Video+Audio, Instruct Editing), масштабируемые до десятков миллиардов параметров. Задача — создание инфраструктуры для эффективного обучения и оценки таких моделей на крупных GPU-кластерах.

Обязанности

разработка и оптимизация high-load пайплайнов распределенного обучения (PyTorch) с использованием FSDP, Tensor/Sequence Parallelism
создание мультимодальных подгрузчиков данных
создание системы метрического мониторинга параметров кластера, внутренних состояний модели и качества генерируемых сэмплов во время обучения
оптимизация коммуникации (NCCL), управление памятью и загрузкой каналов связи с хранилищем для максимизации утилизации кластера
проектирование отказоустойчивых checkpointing/resume механизмов для долгих экспериментов.

Требования

экспертный уровень Python, PyTorch, torch.distributed
глубокий опыт масштабного (1k+ GPU) обучения моделей с FSDP/TP/PP
Понимание нюансов mixed-precision training (bf16, fp8)
опыт отладки, профилирования и оптимизации распределенного кода (GDB, PyTorch Profiler)
бонус: Опыт с CUDA kernel optimization, компиляторами (TorchDynamo, Triton, ThunderKittens)
навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.

Условия

ежегодный пересмотр зарплаты, годовую премию
корпоративный спортзал и зоны отдыха
уникальную систему обучения Сбера для профессионального развития
расширенный ДМС и льготное страхование для семьи
бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера
корпоративную пенсионную программу.

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
Полная занятость, Полный день
Опыт работы
От 3 до 6 лет
Дата размещения:
13.08.2025 02:20:00

Похожие вакансии

Senior ML Engineer (TTS Text-to-speech)

СБЕР

Полный день

Москва
Не указана

Рекомендуем

ML инженер (Развитие агентности в Core LLM)

СБЕР

Полный день

Москва
Не указана

Рекомендуем

Senior / Lead Machine Learning Engineer (GigaChat Audio - Spotter)

СБЕР

Полный день

Москва
Не указана

Рекомендуем

Инженер машинного обучения / Компьютерного зрения (Senior ML/CV Engineer)

EKSLi

Полный день

Москва
Не указана

Старший разработчик по машинному обучению (Machine Learning)

Делимобиль

Удаленная работа

Москва
Не указана

Deep Learning Engineer (ASR)

СБЕР

Полный день

Москва
Не указана

Senior DL-engineer (Центр Исследований)

СБЕР

Полный день

Москва
Не указана

МАГНИТ, Розничная сеть

Senior ML Engineer (Promo)

МАГНИТ, Розничная сеть

Удаленная работа

Москва
Не указана

Senior Research Engineer (Multimodal Diffusion & RLHF)

СБЕР

Полный день

Москва
Не указана

Senior NLP Engineer (Центр практического искусственного интеллекта)

СБЕР

Полный день

Москва
Не указана

Middle, ML-инженер CV, ML

СБЕР

Полный день

Москва
Не указана

Machine Learning специалист (Middle+/Senior)

ЦУМ, ТД

Удаленная работа

Москва
Не указана

Chief Data Scientist

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день

Москва
Не указана

Senior ML Developer (NLP, LLM, нейросети)

SL Soft

Удаленная работа

Москва
Не указана

Middle ML Engineer (Computer Vision & NLP, Python / Golang, on-premise)

Anykey

Полный день

Москва
от 350000 RUR

Старший ML инженер (Python)

Ozon

Полный день

Москва
от 350000 RUR

Senior Data Engineer (Large-Scale Multimodal Dataset Pipelines)

СБЕР

Полный день

Москва
от 350000 RUR

CV инженер (data scientist)

Кронослаб

Полный день

Москва
от 350000 RUR

Ведущий ML инженер

СБЕР

Полный день

Москва
от 350000 RUR

ML-инженер (search engine, NLP)

Оператор Газпром ИД

Удаленная работа

Москва
от 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.

Оставить вакансию