Продуктовая IT-компания, занимающаяся разработкой и поддержкой высоконагруженных B2B-проектов в сфере развлечений, игр и спорта, ищет Data Engineer, который поможет строить и оптимизировать инфраструктуру обработки данных, обеспечивая надежные и эффективные процессы работы с большими объемами информации.
Наше хранилище данных для аналитики и data science на стеке: S3,Iceberg, ClickHouse, Trino
Что предстоит делать:
- проектировать и разрабатывать архитектуру DWH, определять модели данных, распределять слои и создавать витрины;
- строить процессы ETL/ELT загрузки и трансформации данных (batch и streaming) из различных источников;
- интегрироваться с API , Kafka, Базами данных: настраивать и управлять потоками данных;
- обеспечивать качество данных (Data Quality): разрабатывать и автоматизировать DQ-проверки, внедрять процессы мониторинга и алертинга для контроля качества данных;
- развивать системы мониторинга и информирования: настраивать метрики и дашборды в Grafana, контролировать производительность;
- оптимизировать и поддерживать существующий код: рефакторинг, повышение эффективности ETL-процессов и запросов, устранение узких мест;
- управлять версиями кода (GitLab) и вести техническую документацию в Confluence.
Какие навыки важны:
- опыт работы Data Engineer 2-3 года;
- продвинутый уровень Python: опыт в PySpark и Apache Airflow;
- глубокое знание SQL: умение писать и оптимизировать сложные запросы, проводить review;
- понимание работы СУБД ClickHouse, Trino и PostgreSQL знание их внутренних механизмов и конфигураций, написание и оптимизация SQL запросов;
- опыт работы с большими данными: понимание распределенных систем хранения (S3, HDFS), работа с форматами данных Parquet, Avro; знание методологий моделирования данных;
- интеграция данных из разнообразных источников: навыки получения и обработки данных через JDBC, REST API, Kafka, чтение из файловых систем (JSON, Parquet, S3);
- опыт настройки конвейеров в GitLab CI/CD, контейнеризация приложений с использованием Docker и их оркестрация в Kubernetes;
- настройка и использование Grafana для визуализации метрик и отслеживания состояния систем;
- знание архитектур DWH, опыт проектирования слоев данных и ETL-процессов.
Что мы предлагаем:
- работа в офисе г. Белград, комфортные условия;
- обеды и завтраки в офисе за счет компании;
- обучение за счет компании и доступ к лучшим практикам обработки данных;
- компенсация изучения английского языка для профессионального роста;
- рабочий процесс на русском языке и комфортное взаимодействие внутри коллектива.