Python-разработчик (RecSys)

Описание вакансии

Мы делаем систему персонализированных рекомендаций для медиа холдинга Rambler&Co - из всего контента медиа площадок умеем выбирать ближайшее к интересам пользователя. Наши рекомендации работают в реальном времени, ранжируют тысячи документов за десятки милисекунд с помощью ML.

А для того чтобы были данные для обучения моделей и ранжирования контента, наши пайплайны обрабатывают более 1.5ТБ событий с площадок в день, сопровождают их от клика в браузере до эмбеддинга пользователя или значения фичи датасета.

Чем предстоит заниматься?

Проектированием и разработкой Big Data пайплайнов, а именно:

Реализацией более быстрого способа расчета ML фичей пользователя;
Проектированием обработки событий "search" (событие поиска по сайту) для улучшения рекомендаций;
Улучшением доставки событий и расчета фичей - чтобы работало быстрее и считало больше;
Оптимизацией доставки истории пользователя до бекендов;
Дизайном мониторинга для ETL системы.

Наш стек:

Python3 (и немного GO и Java);
Airflow;
Hadoop: PySpark, Hive, HDFS;
Clickhouse, Redis, Postgres.

Что мы ищем и ценим:

Опыт в продуктовой разработке на Python;
Опыт работы с Big Data в продакшене;
Понимание принципов работы баз данных.

Будет плюсом:

Опыт работы с Docker, k8s, Spark, Yarn;
Бэкграунд или опыт работы в ML;
Знание мат. статистики;
Опыт в Java или Go;
Опыт работы с рекомендательными системами;
Опыт работы с высоконагруженными системами.

Мы предлагаем:

официальное трудоустройство;
современный офис (на Даниловской мануфактуре), собственный спортзал от «Лиги Героев», а также занятия волейболом, футболом, настольный теннис, бокс и групповые тренировки «Здоровая спина»;
ДМС со стоматологией, офисный врач, доплата больничного листа, корпоративные скидки;
электронная библиотека издательства МИФ, в которую входят почти 2 тыс. единиц контента по бизнесу, саморазвитию, здоровому образу жизни и другим актуальным темам;
бесплатная подписка на сервисы партнеров;
насыщенная корпоративная жизнь.