Senior Data Engineer

Москва, Ленинградский проспект, 37

Описание вакансии

Наши партнеры - крупнейшая компания FMCG в поиске Senior Data Engineer

Технические навыки:

○ Apache Airflow, включая работу с DAGs, операторами, сенсорами и хуками.

○ Apache Kafka, включая работу с топиками, партициями, коннекторами.

Опыт работы с реляционными (PostgreSQL, MSSQL, Oracle) и нереляционными (MongoDB) СУБД, знание SQL-запросов, опыта оптимизации запросов и создания индексов.
Владение языком программирования Python на уровне профессионального разработчика, опыт написания сложных программных конструкций и библиотек.
Опыт проектирования и реализации ETL-пайплайнов в рамках крупных организаций, работа с инструментами для автоматизации процессов перемещения и трансформации данных.
Навык контейнеризации и развертывания приложения на Kubernetes, Docker Compose и других платформах оркестрации контейнеров.
Знание принципов построения отказоустойчивых архитектур (HA, disaster recovery).
Практический опыт настройки мониторинга, анализа журналов, создания инструментов аналитики (Prometheus, Grafana, ELK Stack).
Осведомленность о современных методах DevOps и принципах CI/CD.

Предстоящие задачи:

1. Проектирование и реализация ETL-процессов:

Проектирование потоков данных между различными системами компании.
Реализация процессов сбора, преобразования и загрузки данных через Apache Airflow.

2. Развитие и поддержка инфраструктуры сервисов

Конфигурирование и обновление Apache Airflow на серверах предприятия.
Организация резервного копирования и восстановления данных для обеспечения отказоустойчивости.
Настройка синхронизации между брокерами Apache Kafka, включая настройку зеркальных зон (MirrorMaker).

3. Интеграция разнородных систем:

Интеграция корпоративных ERP-, CRM-систем, баз данных и других источников данных посредством использования API и протоколов передачи данных.
Создание надежных Airflow конвейеров обработки данных и их интеграция с внешними сервисами.
Реализация интеграций Kafka с базами данных, хранилищами данных, аналитическими платформами (Connectors).

4. Настройка мониторинга и управления задачами:

○ за выполнением заданий, контролем качества данных и своевременность выполнения интеграционных задач.

○ состоянием Kafka-кластеров

5. Оптимизация производительности:

Анализ и оптимизация пайплайнов для повышения скорости обработки больших объемов данных.
Определение узких мест и повышение эффективности работы сервисов путем изменения конфигурации и улучшения кода.
Оценка производительности и масштабируемости системы под нагрузкой компании.

6. Обеспечение безопасности

Обеспечение защиты конфиденциальной информации и соблюдение политики информационной безопасности компании.
Управление доступом к данным и настройка прав доступа пользователей к сервисам.

7. Развитие и поддержка CI/CD процессов:

Автоматизация повторяющихся действий (например деплоймент новых версий пайплайнов, тестирование обновлений, и т.д.) (GitLab CI, ArgoCD, Ansible).

8. Документирование решений и разработка технической документации

Подготовка подробной документации по разработанным процессам, архитектурам и инструкциям для команды поддержки и разработчиков.

9. Решение проблем и поддержка:

Анализ ошибок и исключение причин возникновения сбоев в работе системы.
Поиск и исправление багов в коде и инфраструктурах, анализ логов и восстановление работоспособности интеграций после сбоев.
Консультации команд разработчиков по использованию сервисов Kafka и Airflow в проектах.

Условия: