Мы занимаемся построением и поддержкой надежных data-процессов, которые лежат в основе аналитики и машинного обучения. Вам предстоит работать с полным циклом данных: от их сбора и очистки до организации pipelines и обеспечения их качества.
Обязанности
- Разработка и поддержка парсеров (scrapers) и краулеров (crawlers) для сбора данных из веб-источников с использованием Scrapy , Selenium , BeautifulSoup
- Интеграция со сторонними сервисами и платформами через REST API.
- Организация надежного и эффективного процесса сбора данных с учетом политик сайтов
- Реализация процессов создания векторных эмбеддингов (embeddings) для текстовых и других типов данных
- Интеграция и настройка векторных баз данных (например, на основе pgvector для PostgreSQL) или специализированных решений (Weaviate, Qdrant, Milvus)
- Разработка и оптимизация pipelines для семантического / векторного поиска (vector search)
- Препроцессинг данных: очистка, нормализация, обработка пропусков, преобразование форматов
- Участие в создании и отборе признаков (feature engineering) для последующего использования в ML-моделях.
Требования
- Хорошее знание Python 3.12 и опыт написания скриптов на Bash
- Понимание принципов работы контейнеризации (Docker) и основ микросервисной архитектуры
- Опыт в веб-скрапинге или работе с API
- Опыт работы с системами контроля версий (Git)
- Понимание принципов построения CI/CD пайплайнов
- Базовые знания в области машинного обучения и больших языковых моделей (ML/LLM), чтобы понимать контекст использования данных.
Условия
- Комфортный современный офис рядом с м. Кутузовская
- Гибридный формат работы
- Корпоративный спортзал и зоны отдыха
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- Программа адаптации и помощь руководителя на старте.