Мы в поиске Data engineer, который будет участвовать в новом проекте для которого требуется развивать действующий DWH.
Наш стек: Python, Airflow для процессинга, Spark(на данный момент только Jupyter hub для команды в кластере 1500+ CPU), Clickhouse как основа для DWH (5 шардов \ 80Tb на реплику), Postgres для хранения чувствительных данных data vault \ 3НФ, Kafka как основной источник данных, OpenMetaData для ведения документации DWH, Superset для удобного мониторинга data quality / состояния DWH (system.* таблиц), вся инфраструктура развернута в k8s, gitlab, youtrack.
Обязанности:
- проектировать и разрабатывать ETL пайплайны на Airflow для Clickhouse\Postgres
- оптимизировать действующие пайплайны и учавствовать в доработке фреймворка Airflow
- взаимодействовать с аналитиками, оптимизировать сложные SQL запросы, формировать культуру работы с данными
- анализировать и внедрять инструменты инжиниринга данных.
Требования: - опыт работы с Airflow
- опыт работы с Python
- опыт работы с шардированным Clickhouse
- опыт работы с Postgres
- понимание концепции слоев данных, физических и логических моделей
- опыт работы с Kafka.
Плюсом будет:
- опыт работы с Docker
- опыт работы с Kubernetes
- опыт написания CI/CD пайплайнов.
Условия: - стабильность и уверенность в завтрашнем дне - оформляем по ТК РФ с первого дня, нацелены на долгосрочную совместную работу;
- график 5/2 – удаленно/гибридно (после испытательного срока);
- бесплатное питание в офисе (шведский стол);
- гибкие бизнес-процессы, минимум бюрократии и согласований;
- максимум возможностей для профессиональной самореализации;
- ДМС со стоматологией после ИС;
- работу в БЦ Искра-Парк, м. Динамо. Просторный опенспейс, кофейня, йога в офисе, настольный теннис, много растений;
- конференции, митапы, курсы и скидки от наших партнеров;
- спортивные мероприятия и скидки на фитнес.