Наша команда DWH отвечает за развитие корпоративного хранилища данных. Мы обеспечиваем качество и своевременность поставки данных.
В работе мы используем сервисы Yandex Cloud для интеграции данных (Data Transfer, Schema Registry и т. д.). Обрабатываем данные с помощью YQL (расширенный SQL) и Nirvana (аналог Airflow). Хранилище данных — YT.
Ищем опытного инженера данных, который любит сложные задачи. Вы будете настраивать обновление данных и строить нагруженные системы.
Какие задачи вас ждут:
- Организация активации данных с различными источниками в различных режимах (CDC, increment, snapshot). Вам предстоит интегрировать данные из различных источников (API, PG, YDB, YDS) и передавать их на последующие уровни хранилища данных.
- Оптимизация ETL-процессов. Вам предстоит применять различные техники оптимизации к ETL-процессам.
- Управление данными в хранилище. Вам предстоит добавлять данные в систему, обновлять и удалять их.
Мы ждем, что вы:
- Имеете релевантный опыт, хорошо знаете SQL и Python;
- Готовы разбираться в деталях поставки и обработки данных;
- Работали с базами данных и ETL-процессами;
- Умеете работать с инструментами для управления данными;
- Вам интересно работать в команде и участвовать в разработке общих решений;
- Готовы изучать новые технологии и инструменты.