Мы — многопрофильный холдинг ИТР, один из наших проектов — аналитическая платформа рыночных данных на базе ИИ для стратегического планирования и оптимизации расходов, времени и ресурсов. Сейчас мы в поиске Data Engineer в нашу команду.
Твои задачи:
— Создание и поддержка DAG в Apache Airflow для автоматической обработки входящих файлов (PDF, XLSX, CSV) в количестве 55 000+ единиц.
— Парсинг сложных документов, написание скриптов на Python для обработки Excel-файлов с мультилистами, объединенными ячейками и нестандартными сдвигами по годам.
— Очистка данных, приведение временных срезов к единому формату, извлечение и обогащение метаданных для последующего анализа.
— Организация загрузки данных в PostgreSQL с использованием модели schema-per-tenant. Автоматизация создания и клонирования шаблонов схем при подключении (onboarding) нового клиента.
— Обеспечение взаимодействия пайплайнов с enterprise-хранилищами (MinIO / S3) для чтения исходных файлов и сохранения результатов обработки.
Что важно для нас:
— Уверенное владение Python и библиотеками для работы с данными (Pandas, OpenPyXL, PyPDF2 и аналоги).
— Понимание архитектуры Airflow, умение проектировать DAG, настраивать сенсоры (file sensors) и работать с очередями задач.
— Опыт управления схемами (schema-per-tenant), понимание процессов резервного копирования и восстановления (pg_dump/pg_restore) на уровне схем.
— Готовность разбираться в нестандартных структурах таблиц, умение писать устойчивый к ошибкам код для парсинга сложных Excel-отчетов.
— Опыт с Docker / Docker Compose для развертывания и локального тестирования сервисов.
Условия и возможности:
— График 5/2, гибридный формат работы (возможна полная удаленка).
— Работа с передовыми технологиями: Реальные задачи ИИ и аналитики, работа с большим объемом данных и современным стеком.
— Конкурентная заработная плата, обсуждаемая по итогам собеседования с учетом ваших компетенций.