Мы — команда GigaSearch, создаём поисковый сервис, который отвечает на запросы пользователей на естественном языке. Наша миссия: предоставить GigaChat доступ к актуальной информации, чтобы пользователи получали точные ответы на любые вопросы — включая самые свежие новости и события.
Аналитик качества в нашей команде — это человек, который выстраивает систему измерений с нуля: определяет, что и как мерить, запускает пайплайны оценки, находит деградации раньше пользователей и даёт командам сигнал к действию. Если вам интересно работать на стыке статистики, NLP и продуктовой аналитики — и вы хотите не просто считать метрики, а строить культуру качества внутри AI-продукта — вы наш кандидат.
Над чем мы работаем
- Оценка качества поискового ретривера и итогового ответа LLM на реальном потоке данных
- Построение автоматических пайплайнов оценки на основе LLM-as-a-judge
- Разработка фреймворков для работы с асессорами: гайдлайны, контроль качества разметки, межэкспертная согласованность
- Дизайн и анализ A/B экспериментов — от формулировки гипотезы до выводов
- Мониторинг и алертинг качества на продакшн-трафике: обнаружение деградаций и регрессий
Обязанности
- проектирование стратегий семплирования для потоковой оценки качества (стратифицированное, reservoir sampling, приоритизация по сегментам запросов)
- разработка и поддержка метрик качества поиска (NDCG, MRR, Precision@K, pFound) и генерации (Faithfulness, Answer Relevance, Context Recall)
- построение автоматических пайплайнов LLM-оценки: дизайн судейских промптов, валидация надёжности судьи на контрольных выборках
- организация краудсорсинговой разметки: написание инструкций для асессоров, настройка контроля качества, расчёт cohen's kappa / fleiss' kappa
- самостоятельная реализация пайплайнов оценки (от SQL-запроса до дашборда) без зависимости от разработчиков
- участие в дизайне и анализе A/B тестов: расчёт мощности, проверка стат. значимости, формулировка выводов
- генерация гипотез о причинах деградации качества и постановка задач смежным командам
Требования
- опыт в аналитике данных или оценке качества ML/NLP систем от трех лет
- Уверенное знание статистики: доверительные интервалы, гипотезы, A/B тесты, метрики согласованности разметчиков
- практический опыт проектирования схем семплирования для потоков данных
- знание метрик Information Retrieval и понимание их применимости в разных задачах
- python на уровне уверенного аналитика: Pandas, NumPy, SciPy, работа с API LLM
- продвинутый SQL (ClickHouse / PostgreSQL): оконные функции, сложные агрегации, оптимизация
- умение самостоятельно закрывать задачу от идеи до результата
Будет плюсом
- опыт работы с RAG-системами и понимание их специфики (чанкование, эмбеддинги, ретривер vs. генератор)
- практика с фреймворками автоматической оценки: Ragas, DeepEval, TruLens, MLflow Evaluate
- опыт работы с краудсорсинговыми платформами (Толока, Label Studio и аналоги)
- знакомство с OpenSearch / ElasticSearch как поисковым инструментом
- опыт построения дашбордов и систем мониторинга (Superset, Grafana, DataLens)
- знакомство с Airflow для оркестрации аналитических пайплайнов
- условия
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- программа ипотеки для сотрудников
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.