Проект — построение и развитие Хранилища Данных "Магнит Маркет"
Основные задачи — развитие существующего фреймворка загрузки сырьевых данных и построение витрин над ними, развитие Дата Каталога, движка Data Quality.
Наш стек
- Greenplum и ClickHouse, как DWH.
- Airflow+DBT как оркестратор задач.
- Python для дагов и операторов в AF.
- Kafka и Debezium — основной инструмент поставки данных в хранилище.
- Yandex Cloud как место работы всех наших сервисов.
- DBT как основа дата каталога и шаблонизатор SQL.
Чем предстоит заниматься
В первые три месяца
- Погрузиться во фреймворки загрузки данных и расчета витрин на основе задач по одному из направлений
- Освоиться в предметной области данных.
- Проводить code review аналитиков с целью использования ими лучших технических решений и оптимизации производительности
Когда освоишься
- Создавать новые паттерны загрузки данных и расчета витрин для дальнейшего переиспользования
- Развивать модель данных
- Рефакторить текущие процессы, предлагать лучшие практики работы с данными
Что нужно, чтобы к нам присоединиться
- Знать особенности MPP-систем.
- Уверенно владеть SQL (Оконные функции, партицирование, агрегации, оптимизация запросов, понимание плана запроса).
- Иметь опыт с Python достаточный для разработки операторов в Airflow(ООП) и написания пайплайнов данных из различных источников.
- Понимать принципы работы Airflow (даги, таски, операторы, сенсоры, хуки, контекст).
Будет плюсом
- Опыт в Greenplum и/или ClickHouse (особенно шардированный)
- Опыт с Kafka
Что предлагаем
- Очень интересный сложный продукт с большим количеством пользователей
- Формат работы: полная удаленка, при желании — гибрид/офис
- Оформление в IT-компании, аккредитованной в Министерстве цифрового развития
- ДМС