ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
- Разработка и поддержка ETL-процессов;
- Автоматизация извлечения, трансформации и загрузки данных;
- Создание и поддержка ETL-пайплайнов;
- Объединение и сопоставление информации из различных источников.
Работа с данными и хранилищами:
- Обработка и анализ данных с использованием Pandas;
- Работа с Data Lake, включая экосистему Hadoop и Hive;
- Управление реляционными базами данных (PostgreSQL, MySQL, Oracle);
- Работа с NoSQL базами данных.
Аналитическая работа:
- Создание и поддержка аналитических Notebook в Jupyter Notebook/Hub;
- Построение дашбордов и визуализаций;
- Очистка и предобработка данных;
- Построение моделей данных.
Разработка и автоматизация:
- Написание скриптов для автоматизации процессов;
- Работа с API;
- Создание сложных SQL-запросов и их оптимизация.
НАШИ ПОЖЕЛАНИЯ К СОИСКАТЕЛЮ:
Владение Python на продвинутом уровне с опытом работы:
- pandas, numpy, scipy, matplotlib
- Git (управление версиями)
Опыт работы:
- С реляционными базами данных
- Jupyter Notebook/Hub
- Superset экосистемой
- ETL-процессами
Аналитические навыки:
- Построение визуализаций
- Очистка данных
- Моделирование данных
БУДЕТ ПРЕИМУЩЕСТВОМ:
- Знание DevOps на базовом уровне
- Опыт работы с AirFlow
- Владение дополнительными инструментами автоматизации процессов