Обязанности:
Разработка и рефакторинг расчетных процедур на Spark+Scala
Разработка скриптов SQL для регистрации метаданных в сервисе метаданных
Оптимизация SQL-запросов для выгрузки данных из источников
Разработка ETL-пайплайнов в Spark
Разработка логики оркестрации процессов через даги Airflow
Требования:
1. SQL (продвинутый уровень):
Умение оптимизировать сложные запросы (понимание планов выполнения, индексы, партиционирование);
Базовые знания оконных функций (OVER, PARTITION BY, ORDER BY, ROWS/RANGE);
Понимание трехзначной логики.
2. Процедурный SQL:
Опыт написания хранимых процедур, функций и триггеров на одном из диалектов:
a. PL/pgSQL (PostgreSQL);
b. T-SQL (MS SQL Server);
c. PL/SQL (Oracle);
Умение работать с динамическим SQL.
3. Apache Spark:
Опыт разработки ETL-пайплайнов в Spark (Spark SQL, DataFrame API)
4. Scala (базовый уровень):
Понимание основных конструкций: case-классы, pattern matching, коллекции (List, Map, Option).
5. Система контроля версий (Git):
Опыт работы с ветками (feature, release, hotfix), мердж-реквестами;
Понимание rebase vs merge;
Знание основных команд.
6. Высшее образование (финансы, IT, математика, экономика).
7. Опыт работы Backend/Data/ETL разработчиком от 1 года
(предпочтительно в финтехе)
8. Умение работать с инструментами: Jira, Confluence
9. Желание развиваться в техстеке
________________________________________
Будет плюсом:
Понимание внутренней работы Spark (ленивые вычисления, stages/tasks, shuffle partitions)
Умение оптимизировать Spark-приложения (настройка памяти, партиционирование, broadcast joins)
Опыт работы с Airflow (или с другим оркестратором)
Опыт работы с REST API, Kafka
Опыт работы с Liquibase