Наши партнеры - крупнейшая компания FMCG в поиске Senior Data Engineer
Технические навыки:
- Глубокое понимание архитектуры и возможностей платформы:
○ Apache Airflow, включая работу с DAGs, операторами, сенсорами и хуками.
○ Apache Kafka, включая работу с топиками, партициями, коннекторами.
- Опыт работы с реляционными (PostgreSQL, MSSQL, Oracle) и нереляционными (MongoDB) СУБД, знание SQL-запросов, опыта оптимизации запросов и создания индексов.
- Владение языком программирования Python на уровне профессионального разработчика, опыт написания сложных программных конструкций и библиотек.
- Опыт проектирования и реализации ETL-пайплайнов в рамках крупных организаций, работа с инструментами для автоматизации процессов перемещения и трансформации данных.
- Навык контейнеризации и развертывания приложения на Kubernetes, Docker Compose и других платформах оркестрации контейнеров.
- Знание принципов построения отказоустойчивых архитектур (HA, disaster recovery).
- Практический опыт настройки мониторинга, анализа журналов, создания инструментов аналитики (Prometheus, Grafana, ELK Stack).
- Осведомленность о современных методах DevOps и принципах CI/CD.
Предстоящие задачи:
1. Проектирование и реализация ETL-процессов:
- Проектирование потоков данных между различными системами компании.
- Реализация процессов сбора, преобразования и загрузки данных через Apache Airflow.
2. Развитие и поддержка инфраструктуры сервисов
- Конфигурирование и обновление Apache Airflow на серверах предприятия.
- Организация резервного копирования и восстановления данных для обеспечения отказоустойчивости.
- Настройка синхронизации между брокерами Apache Kafka, включая настройку зеркальных зон (MirrorMaker).
3. Интеграция разнородных систем:
- Интеграция корпоративных ERP-, CRM-систем, баз данных и других источников данных посредством использования API и протоколов передачи данных.
- Создание надежных Airflow конвейеров обработки данных и их интеграция с внешними сервисами.
- Реализация интеграций Kafka с базами данных, хранилищами данных, аналитическими платформами (Connectors).
4. Настройка мониторинга и управления задачами:
- Настройка и поддержка инструментов мониторинга:
○ за выполнением заданий, контролем качества данных и своевременность выполнения интеграционных задач.
○ состоянием Kafka-кластеров
- Разработка механизмов оповещения при сбоях и критических событиях.
- Создание dashboard'ов для анализа метрик производительности и нагрузки.
- Мониторинг работы узлов кластера, обеспечение высокой доступности сервисов.
5. Оптимизация производительности:
- Анализ и оптимизация пайплайнов для повышения скорости обработки больших объемов данных.
- Определение узких мест и повышение эффективности работы сервисов путем изменения конфигурации и улучшения кода.
- Оценка производительности и масштабируемости системы под нагрузкой компании.
6. Обеспечение безопасности
- Обеспечение защиты конфиденциальной информации и соблюдение политики информационной безопасности компании.
- Управление доступом к данным и настройка прав доступа пользователей к сервисам.
7. Развитие и поддержка CI/CD процессов:
- Автоматизация повторяющихся действий (например деплоймент новых версий пайплайнов, тестирование обновлений, и т.д.) (GitLab CI, ArgoCD, Ansible).
8. Документирование решений и разработка технической документации
- Подготовка подробной документации по разработанным процессам, архитектурам и инструкциям для команды поддержки и разработчиков.
9. Решение проблем и поддержка:
- Анализ ошибок и исключение причин возникновения сбоев в работе системы.
- Поиск и исправление багов в коде и инфраструктурах, анализ логов и восстановление работоспособности интеграций после сбоев.
- Консультации команд разработчиков по использованию сервисов Kafka и Airflow в проектах.
Условия: