Senior Data Scientist (Поиск)

Описание вакансии

Команда Поиска развивает важные для всего бизнеса компании компоненты: поисковые тулы (отели, ж/д, авиа), поисковые подсказки (нулевая выдача, ML-рекомендации) и растит метрику конверсии переходов на карточку отеля.

Задачи:

Вести ML-проекты end-to-end: постановка задачи -> решение -> тест -> прод -> поддержка.
Совместно с дата инженерами формировать датасеты и требования к данным, оценивать реализуемость, риски и ограничения.
Совместно с дата аналитиками участвовать в дизайне и анализе A/B-тестов: метрики, сплиты, интерпретация результатов, рекомендации по выкатке решений.
Разрабатывать и обучать модели (classic ML + DL).
Передавать модель и код в продакшен (Python-сервис), сопровождать релизы и интеграции.
Отвечать за качество модели после запуска: метрики, мониторинг, дрейф/деградации, план улучшений и регламенты поддержки.

Основные направления, которыми предстоит заниматься:

Поиск гипотез для улучшения релевантности поисковой выдачи.
Разработка новых признаков, обучение моделей ранжирования.
Проектирование и проведение A/B-тестов, вывод решений в продакшен.
Улучшение эксплуатационных характеристик ML-решений: наблюдаемость, надёжность, эффективность.

Для этого тебе понадобится:

Опыт ведения ML-проектов end-to-end в продакшене (от постановки до поддержки).
Отличное понимание классического ML: feature engineering, бустинги, классификация/регрессия, кросс-валидация, подбор порогов, калибровка.
Опыт работы с поисковыми или рекомендательными системами.
Опыт с DL (PyTorch/TensorFlow): понимание принципов fine-tuning, инференс моделей.
Python (production-качество): читаемый код, тесты на критичные компоненты, понимание упаковки модели/артефактов и интеграции в сервис.
Понимание мониторинга ML: метрики качества, дрейф, алерты, диагностика и регламенты поддержки.
SQL на уровне самостоятельной сборки датасетов (joins, window functions).
Опыт с интерпретируемостью и анализом ошибок модели.
MLflow / W&B / DVC или аналогичные инструменты трекинга экспериментов.
Оркестрация/пайплайны (Airflow/Prefect/Dagster) и продвинутые data-процессы.
Английский на уровне В1 (intermediate).
Будет плюсом:
Опыт работы с нейросетями в контексте векторного поиска, ранжирования, NLP, CV.
Опыт работы с BigData: Hadoop, Spark.