Мы исследуем и внедряем передовые методы для инструктивного редактирования изображений/видео, интеграции аудио в видео-генерацию и повышения качества за счет RLHF (Reinforcement Learning from Human Feedback).
Задачи:
- разработка и обучение диффузионных моделей для инструктивного редактирования видео и изображений
- исследование архитектур для совместной генерации видео и синхронизированного аудио по текстовому промпту
- создание пайплайна RLHF для тонкой настройки моделей:
- обучение мультимодальных reward-моделей (видео/аудио/текст)
- интеграция алгоритмов RL (PPO, DPO, GRPO) в диффузионный пайплайн
- проектирование экспериментов, анализ результатов
- тесная коллаборация с Distributed Engineers для эффективной имплементации идей
Требования:
- сильный бэкграунд в CV, генеративных моделях (Diffusion, GANs), мультимодальном ML
- опыт работы с диффузионными моделями (Stable Diffusion/FLUX, Wan 2.X и пр.) и фреймворками (Diffusers)
- практические знания Reinforcement Learning, особенно RLHF
- уверенное владение PyTorch и навыки распределенного обучения (DDP/FSDP)
- способность быстро прототипировать и проводить исследования SOTA методов
- бонус: Опыт с аудио-генерацией (AudioLDM, MusicGen), публикации на NeurIPS/ICML/CVPR
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
Условия:
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера