Мы делаем систему персонализированных рекомендаций для медиа холдинга Rambler&Co - из всего контента медиа площадок умеем выбирать ближайшее к интересам пользователя. Наши рекомендации работают в реальном времени, ранжируют тысячи документов за десятки милисекунд с помощью ML.
А для того чтобы были данные для обучения моделей и ранжирования контента, наши пайплайны обрабатывают более 1.5ТБ событий с площадок в день, сопровождают их от клика в браузере до эмбеддинга пользователя или значения фичи датасета.
Чем предстоит заниматься?
Проектированием и разработкой Big Data пайплайнов, а именно:
- Реализацией более быстрого способа расчета ML фичей пользователя;
- Проектированием обработки событий "search" (событие поиска по сайту) для улучшения рекомендаций;
- Улучшением доставки событий и расчета фичей - чтобы работало быстрее и считало больше;
- Оптимизацией доставки истории пользователя до бекендов;
- Дизайном мониторинга для ETL системы.
Наш стек:
- Python3 (и немного GO и Java);
- Airflow;
- Hadoop: PySpark, Hive, HDFS;
- Clickhouse, Redis, Postgres.
Что мы ищем и ценим:
- Опыт в продуктовой разработке на Python;
- Опыт работы с Big Data в продакшене;
- Понимание принципов работы баз данных.
Будет плюсом:
- Опыт работы с Docker, k8s, Spark, Yarn;
- Бэкграунд или опыт работы в ML;
- Знание мат. статистики;
- Опыт в Java или Go;
- Опыт работы с рекомендательными системами;
- Опыт работы с высоконагруженными системами.
Мы предлагаем:
-
официальное трудоустройство;
- современный офис (на Даниловской мануфактуре), собственный спортзал от «Лиги Героев», а также занятия волейболом, футболом, настольный теннис, бокс и групповые тренировки «Здоровая спина»;
- ДМС со стоматологией, офисный врач, доплата больничного листа, корпоративные скидки;
-
электронная библиотека издательства МИФ, в которую входят почти 2 тыс. единиц контента по бизнесу, саморазвитию, здоровому образу жизни и другим актуальным темам;
- бесплатная подписка на сервисы партнеров;
- насыщенная корпоративная жизнь.