Технологии с которыми работаем: Linux, Bash, SQL, Spark (PySpark), Hive,S3, Airflow, JupyterLab, Kafka, PostgreSQL, GreenPlum, ClickHouse, MLFlow.
Чем предстоит заниматься:
- управлением источниками данных и подключение новых;
- снабжением коллег данными своевременно и бесперебойно;
- взаимодействием с коллегами по вопросам подключения источников данных;
- разработкой Flow подготовки данных для моделей машинного обучения с тестами и проверкой простых NFR.
Пожелания к твоему опыту:
- опыт работы Data инженером от 3 лет;
- опыт работы с распределенными хранилищами;
- опыт написания задач для Spark;
- опыт написания сложных SQL запросов;
- уверенные знания Python 3;
- базовые знания алгоритмов и структур данных;
- знания ОС Linux;
- опыт работы с планировщиками задач - Airflow или аналоги;
- умение подключать новые источники данных, работать с текущими, дорабатывать DataSet;
- умение разрабатывать и тестировать ETL-процедуры.