Мы строим и масштабируем пайплайны для сбора, обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.
Задачи:
- разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
- создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
- обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
- построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
- оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
- масштабирование пайплайнов на распределенных кластерах
Требования:
- экспертиза в построении data pipelines (Python, SQL)
- опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
- уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
- опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
- знание практик data versioning (DVC) и управления метаданными
- бонус: Опыт с синтетической генерацией данных, active learning
- навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом
Условия:
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера