Аналитик качества поиска (GigaSearch)

Описание вакансии

Мы — команда GigaSearch, создаём поисковый сервис, который отвечает на запросы пользователей на естественном языке. Наша миссия: предоставить GigaChat доступ к актуальной информации, чтобы пользователи получали точные ответы на любые вопросы — включая самые свежие новости и события.

Аналитик качества в нашей команде — это человек, который выстраивает систему измерений с нуля: определяет, что и как мерить, запускает пайплайны оценки, находит деградации раньше пользователей и даёт командам сигнал к действию. Если вам интересно работать на стыке статистики, NLP и продуктовой аналитики — и вы хотите не просто считать метрики, а строить культуру качества внутри AI-продукта — вы наш кандидат.

Над чем мы работаем

Оценка качества поискового ретривера и итогового ответа LLM на реальном потоке данных
Построение автоматических пайплайнов оценки на основе LLM-as-a-judge
Разработка фреймворков для работы с асессорами: гайдлайны, контроль качества разметки, межэкспертная согласованность
Дизайн и анализ A/B экспериментов — от формулировки гипотезы до выводов
Мониторинг и алертинг качества на продакшн-трафике: обнаружение деградаций и регрессий

Обязанности

проектирование стратегий семплирования для потоковой оценки качества (стратифицированное, reservoir sampling, приоритизация по сегментам запросов)
разработка и поддержка метрик качества поиска (NDCG, MRR, Precision@K, pFound) и генерации (Faithfulness, Answer Relevance, Context Recall)
построение автоматических пайплайнов LLM-оценки: дизайн судейских промптов, валидация надёжности судьи на контрольных выборках
организация краудсорсинговой разметки: написание инструкций для асессоров, настройка контроля качества, расчёт cohen's kappa / fleiss' kappa
самостоятельная реализация пайплайнов оценки (от SQL-запроса до дашборда) без зависимости от разработчиков
участие в дизайне и анализе A/B тестов: расчёт мощности, проверка стат. значимости, формулировка выводов
генерация гипотез о причинах деградации качества и постановка задач смежным командам

Требования

опыт в аналитике данных или оценке качества ML/NLP систем от трех лет
Уверенное знание статистики: доверительные интервалы, гипотезы, A/B тесты, метрики согласованности разметчиков
практический опыт проектирования схем семплирования для потоков данных
знание метрик Information Retrieval и понимание их применимости в разных задачах
python на уровне уверенного аналитика: Pandas, NumPy, SciPy, работа с API LLM
продвинутый SQL (ClickHouse / PostgreSQL): оконные функции, сложные агрегации, оптимизация
умение самостоятельно закрывать задачу от идеи до результата

Будет плюсом

опыт работы с RAG-системами и понимание их специфики (чанкование, эмбеддинги, ретривер vs. генератор)
практика с фреймворками автоматической оценки: Ragas, DeepEval, TruLens, MLflow Evaluate
опыт работы с краудсорсинговыми платформами (Толока, Label Studio и аналоги)
знакомство с OpenSearch / ElasticSearch как поисковым инструментом
опыт построения дашбордов и систем мониторинга (Superset, Grafana, DataLens)
знакомство с Airflow для оркестрации аналитических пайплайнов
условия