Senior Data Engineer (Large-Scale Multimodal Dataset Pipelines)

Senior Data Engineer (Large-Scale Multimodal Dataset Pipelines)

Показать контакты

Описание вакансии

Строим и масштабируем пайплайны для сбора, обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.

Обязанности

разработка ETL/ELT пайплайнов для сбора и предобработки web-scale данных (видео, аудио, текст, метаданные)
создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
масштабирование пайплайнов на распределенных кластерах.

Требования

экспертиза в построении data pipelines (Python, SQL)
опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
опыт работы с распределенными вычислениями (Spark/Ray/Dask) и облачными хранилищами (S3, GCS)
знание практик data versioning (DVC) и управления метаданными
бонус: Опыт с синтетической генерацией данных, active learning
навыки работы с генеративными AI-моделями; опыт создания AI-агентов и использования их в работе будет преимуществом.

Условия

ежегодный пересмотр зарплаты, годовую премию
корпоративный спортзал и зоны отдыха
уникальную систему обучения Сбера для профессионального развития
расширенный ДМС и льготное страхование для семьи
бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера
корпоративную пенсионную программу.

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
Полная занятость, Полный день
Опыт работы
От 3 до 6 лет
Дата размещения:
13.08.2025 02:36:00

Похожие вакансии

Senior DL-engineer (Центр Исследований)

СБЕР

Полный день

Москва
Не указана

Рекомендуем

Data Engineer

VK

Полный день

Москва
Не указана

Рекомендуем

Data Engineer (SberData)

СБЕР

Полный день

Москва
Не указана

Рекомендуем

Senior Data Engineer (GigaChat Text-to-speech)

СБЕР

Полный день

Москва
Не указана

MLops (ML Inference Engineer)

WILDBERRIES

Удаленная работа

Москва
Не указана

Data Engineer

СБЕР

Полный день

Москва
Не указана

Старший инженер данных отдела разработки аналитических систем

РНПК

Полный день

Москва
до 300000 RUR

Senior data engineer

СБЕР

Удаленная работа

Москва
до 300000 RUR

DS/ML инженер/AI-Agent Developer (Python)

ИЦ АЙ-ТЕКО

Полный день

Москва
до 300000 RUR

Data Engineer

Юрент

Удаленная работа

Москва
до 300000 RUR

Data Engineer Senior/Lead (Платформа данных ТОТ)

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день

Москва
до 300000 RUR

Senior Distributed Learning Engineer (Core Infrastructure & Training)

СБЕР

Полный день

Москва
до 300000 RUR

Ведущий разработчик DWH (Глобальные рынки)

СБЕР

Полный день

Москва
до 300000 RUR

Data Engineer / Инженер данных

Марс

Полный день

Москва
до 300000 RUR

Senior Data-engineer (DWH)

Иксстек

Полный день

Москва
до 300000 RUR

Ведущий ML инженер

СБЕР

Полный день

Москва
до 300000 RUR

Data Engineer

RDP.RU

Удаленная работа

Москва
до 300000 RUR

Data Engineer (Сербия)

STARTRIBE LTD

Полный день

Москва
до 300000 RUR

Senior / Middle Data Engineer

Атом

Полный день

Москва
до 300000 RUR

Старший ML инженер (Python)

Ozon

Полный день

Москва
до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.

Оставить вакансию