Стажер Data Engineer (SberAI)

Описание вакансии

Мы занимаемся построением и поддержкой надежных data-процессов, которые лежат в основе аналитики и машинного обучения. Вам предстоит работать с полным циклом данных: от их сбора и очистки до организации pipelines и обеспечения их качества.

Обязанности

Разработка и поддержка парсеров (scrapers) и краулеров (crawlers) для сбора данных из веб-источников с использованием Scrapy , Selenium , BeautifulSoup
Интеграция со сторонними сервисами и платформами через REST API.
Организация надежного и эффективного процесса сбора данных с учетом политик сайтов
Реализация процессов создания векторных эмбеддингов (embeddings) для текстовых и других типов данных
Интеграция и настройка векторных баз данных (например, на основе pgvector для PostgreSQL) или специализированных решений (Weaviate, Qdrant, Milvus)
Разработка и оптимизация pipelines для семантического / векторного поиска (vector search)
Препроцессинг данных: очистка, нормализация, обработка пропусков, преобразование форматов
Участие в создании и отборе признаков (feature engineering) для последующего использования в ML-моделях.

Требования

Хорошее знание Python 3.12 и опыт написания скриптов на Bash
Понимание принципов работы контейнеризации (Docker) и основ микросервисной архитектуры
Опыт в веб-скрапинге или работе с API
Опыт работы с системами контроля версий (Git)
Понимание принципов построения CI/CD пайплайнов
Базовые знания в области машинного обучения и больших языковых моделей (ML/LLM), чтобы понимать контекст использования данных.

Условия

Комфортный современный офис рядом с м. Кутузовская
Гибридный формат работы
Корпоративный спортзал и зоны отдыха
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
Программа адаптации и помощь руководителя на старте.

Посмотреть контакты работодателя