Кого мы ищем:
Мы платформенная команда, которая строит надёжную и масштабируемую платформу данных, которая становится основой для аналитики, ML/AI и бизнес-экспериментов. Нас выбирают команды, которым нужно быстро проверять аналитические гипотезы, обучать модели в Kubeflow, обрабатывать данные в Spark и хранить их в Hadoop и Greenplum.
Сейчас мы в поиске Data Engineer, который любит выстраивать системы, оптимизировать процессы и прокачивать data-инфраструктуру.
Наш стек:
- Runtime: Airflow, Spark, Hadoop (HDFS, YARN, Spark, Hive), Kubeflow (Jupyterhub)
- БД и очереди: HDFS, PotgreSQL, GreenPlum, Clickhouse
- Управление инфраструктурой: Ansible, ArgoCD
- CICD: Bitbucket, Teamcity, Nexus
- Мониторинг: Grafana/Zabbix
Чем предстоит заниматься:
- Написание ETL фреймворков по работе с данными с использованием Airflow, Spark;
- Работа с различными источниками данных: Hadoop, GreenPlum, Oracle, Clickhouse и др.;
- Подготовка витрин для анализа (Hive + Spark + SQL);
- Проведение RnD с внедрением best practices по хранению, мониторингу и качеству данных;
- Наполнение и развитие Feature Store для команды Data Scientiests;
- Активное взаимодействие с командами разработки, платформ и аналитики, участие в организации командной работы.
Что мы ожидаем от кандидата:
- Опыт работы на аналогичной позиции от 3-х лет;
- Отличные навыки Python и SQL;
- Уверенное владение Spark;
- Опыт использования эко-системы Hadoop;
- Опыт работы с Airflow.