Инженер данных

Описание вакансии

Лента — федеральный продуктовый ритейлер России.

Сейчас в поиске Инженера больших данных в команду домена Данные и Аналитика, для обеспечения работы инфраструктуры и извлечения ценности из большого объема данных.

Используем Hadoop (HDFS, Hive, YARN, Spark, Kafka), интеграции с БД Oracle, SAP Hana, Clickhouse, Postgres, MySQL, оркестрация Airflow,ETL Spark, Python/Scala, SAP DS, облачные технологии YandexCloud

Что мы предлагаем:

активное участие в реализации значимых проектов Домена Данные и Аналитика в одной из лидирующих и успешно развивающихся розничных сетей;
работа в позитивной команде профессионалов, занимающейся созданием отчетности для анализа эффективности коммерческой деятельности компании и оценки возможностей развития;
активное взаимодействие с бизнес командой Коммерческой службы в поиске новых решений и внедрении изменений в процессы;
четко выстроенный рабочий процесс взаимодействия внутри команды;
оформление в штат аккредитованной IT-компании с первого рабочего дня;
годовое премирование на основании результатов;
компенсационный пакет - ДМС со стоматологией;
официальную оплату труда;
удаленный формат работы;
корпоративные скидки

В Ваши задачи будет входить:

Разработка витрин, постановка расчетов на расписание
мониторинг, поддержка, оптимизация ETL-процессов;
Интеграция данных из различных источников (преимущественно batch-загрузки из SQL баз данных);
Поддержка команды и пользователей по вопросам эффективной работы с данными.
Разработка потоков интеграции данных в Hadoop
Внедрение новой платформы данных LakeHouse
Менторинг младших сотрудников

От Вас ожидаем:

Релевантный опыт работ от 3 лет
Уверенное владение SQL: оконные функции, вложенные подзапросы, фильтрация, агрегации
Знание Apache Hive: написание оптимизированных запросов, разбиение и партиционирование
Опыт работы с Apache Spark (PySpark или Scala): построение трансформаций, join'ы, оконные вычисления
Понимание структуры и принципов хранения в HDFS, работа с CLI
Уверенное использование Apache Airflow: создание DAG'ов, работа с зависимостями, сенсорами
Опыт построения ETL/ELT пайплайнов под большие объёмы (в т.ч. инкрементальные загрузки)
Опыт работы с колонковыми форматами: Parquet, ORC, IceBerg
Понимание проблемы small files и подходов к оптимизации (merge, union, партиционирование)
Уверенное владение Linux (bash): команды, автоматизация, cron Знание Git: работа с ветками, pull requests, code review