Каждый день наши автономные машины собирают терабайты данных, которые мы собираем и анализируем для улучшения и тестирования нашего ПО. Мы ищем человека, который поможет нам в этой задаче и будет заниматься разработкой пайплайнов обработки данных и добавлять в них новый функционал.
Вакансия подразумевает работу с большими объемами технических данных с использованием SQL, Dagster, Spark и polars/pandas где объемы данных позволяют.
Чем предстоит заниматься:
- Реализовать пайплайн/шаг в существующем пайплайне в котором будет реализован алгоритм расчета метрики функции автономного вождения (качество удержания в полосе, качество локализации, дальность распознавания);
- Оптимизировать обработку данных в существующем алгоритме путем перехода со Spark на Polars/Pyarrow с распараллеливанием обработки или оптимизации Spark запросов.
- Разрабатывать пайплайны обработки данных
- Формировать витрины с метриками
- Регламентация алгоритмов расчета метрик функций беспилотного вождения.
Наш стек: Python (pandas, polars, pyspark), Spark, Dagster, Kubernetes, S3, Clickhouse, Metabase
Что мы ждем от кандидатов:
- Разработка на языке Python;
- Хорошее знание SQL (на уровне джойнов и оконных функций);
- Был опыт обработки данных с использованием Python (Pandas/Polars);
- Знакомство со Spark и Airflow.
Будет плюсом:
- Опыт работы с Clickhouse;
- Опыт работы с Airflow/Luidgi/Dagster.