Лента — федеральный продуктовый ритейлер России.
Сейчас в поиске Инженера больших данных в команду домена Данные и Аналитика, для обеспечения работы инфраструктуры и извлечения ценности из большого объема данных.
Используем Hadoop (HDFS, Hive, YARN, Spark, Kafka), интеграции с БД Oracle, SAP Hana, Clickhouse, Postgres, MySQL, оркестрация Airflow,ETL Spark, Python/Scala, SAP DS, облачные технологии YandexCloud
Что мы предлагаем: - активное участие в реализации значимых проектов Домена Данные и Аналитика в одной из лидирующих и успешно развивающихся розничных сетей;
- работа в позитивной команде профессионалов, занимающейся созданием отчетности для анализа эффективности коммерческой деятельности компании и оценки возможностей развития;
- активное взаимодействие с бизнес командой Коммерческой службы в поиске новых решений и внедрении изменений в процессы;
- четко выстроенный рабочий процесс взаимодействия внутри команды;
- оформление в штат аккредитованной IT-компании с первого рабочего дня;
- годовое премирование на основании результатов;
- компенсационный пакет - ДМС со стоматологией;
- официальную оплату труда;
- удаленный формат работы;
- корпоративные скидки
В Ваши задачи будет входить: - Разработка витрин, постановка расчетов на расписание
- мониторинг, поддержка, оптимизация ETL-процессов;
- Интеграция данных из различных источников (преимущественно batch-загрузки из SQL баз данных);
- Поддержка команды и пользователей по вопросам эффективной работы с данными.
- Разработка потоков интеграции данных в Hadoop
- Внедрение новой платформы данных LakeHouse
- Менторинг младших сотрудников
От Вас ожидаем: - Релевантный опыт работ от 3 лет
- Уверенное владение SQL: оконные функции, вложенные подзапросы, фильтрация, агрегации
- Знание Apache Hive: написание оптимизированных запросов, разбиение и партиционирование
- Опыт работы с Apache Spark (PySpark или Scala): построение трансформаций, join'ы, оконные вычисления
- Понимание структуры и принципов хранения в HDFS, работа с CLI
- Уверенное использование Apache Airflow: создание DAG'ов, работа с зависимостями, сенсорами
- Опыт построения ETL/ELT пайплайнов под большие объёмы (в т.ч. инкрементальные загрузки)
- Опыт работы с колонковыми форматами: Parquet, ORC, IceBerg
- Понимание проблемы small files и подходов к оптимизации (merge, union, партиционирование)
- Уверенное владение Linux (bash): команды, автоматизация, cron Знание Git: работа с ветками, pull requests, code review