Продукт — корпоративное хранилище данных для всей группы компаний. Находимся в поиске Дата инженера для усиления команды.
Стек: Debezium, Kafka, Python, MS SQL, Schema Registry, Apache Flink, Apache Paimon, Apache Iceberg, MinIO/S3, Parquet/Avro, Airflow, SODA, dbt, Trino, ClickHouse, Docker/Kubernetes, Git/CI-CD.
Задачи:
- Проектирование, развертывание и сопровождение архитектуры данных на основе концепций Lakehouse и Streamhouse;
- Интеграция потоковых и пакетных данных в единую унифицированную платформу аналитики;
- Разработка и поддержка конвейеров данных (data pipelines) как для batch-, так и для stream-обработки;
- Оптимизация хранения данных в форматах, поддерживающих ACID-транзакции и высокую производительность (например, Delta Lake, Apache Iceberg, Apache Hudi);
- Взаимодействие с аналитиками, разработчиками и инженерами;
- Настройка мониторинга, алертинга и управления метаданными в рамках lakehouse-инфраструктуры.
Ожидания:
- Опыта в Data Engineering от 2-ух лет;
- Практический опыт с Debezium, Kafka, Flink или другой стрим-фреймворк (Spark Streaming, Kafka Streams), Python;
- Написание запросов SQL на продвинутом уровне,
- Знание форматов хранения и таблиц с поддержкой транзакций: Delta Lake, Apache Iceberg, Apache Hudi;
- Базовое понимание CDC, streaming vs batch, ACID в lakehouse.
- Опыт работы с Airflow, Docker, Git, CI/CD.
Будет большим плюсом:
- Знакомство с Schema Registry.
- Практика с Trino/Presto, ClickHouse, dbt.
- Участие в построении data platform с нуля (даже в pet-проекте).
Условия:
- Своевременная "белая" заработная плата (2 раза в месяц на банковскую карту);
- Работа в команде профессионалов над интересными и сложными проектами;
- Официальное трудоустройство и социальные гарантии с первого дня работы;
- Удаленная работа из любого региона по часовому поясу МСК.
Просим вас в сопроводительном письме указать ваши ожидания по заработной плате. Спасибо)