Автоматизированная валидация промтов
писать на Python скрипты, которые:
• берут тестовые сценарии (JSON/CSV);
• вызывают актуальные промт-инструкции (через API LLM или локальный сервер);
• сохраняют ответы, метаданные и оценки (rouge/BLEU/LLM-as-judge/ручные метки);
• формируют отчёты (Markdown/CSV/DB) и алерты при деградации качества;
• поддерживать пайплайн с дифф-тестами при каждом изменении промта.
Подготовка тестовых датасетов
• собирать и курировать сценарии (user stories, edge-cases, негативные примеры);
• анонимизировать, версионировать и документировать выборку.
Аналитические дашборды (Redash)
• писать SQL-запросы и визуализации;
• настраивать auto-refresh и рассылку отчётов.
Сотрудничество
• работать с продакт-менеджером и дизайнером промтов;
• помогать формулировать метрики качества (precision@k, hallucination rate, UX CSAT)
• Python-бэкграунд (3+ года) — асинхронность или multiprocessing, pandas / polars.
• Работа с LLM-стеком и промт-инженерией — вызов моделей, управление параметрами температуры, топ-p; понимание RAG-архитектуры и ограничений больших языковых моделей.
• Автоматизированная оценка качества модели — разработка скриптов pairwise / LLM-as-Judge, метрики ROUGE / BLEU / BERTScore / hallucination rate, отчёты о деградациях.
• Дашборды и аналитика — создание информативных визуализаций.
• Английский не ниже B2 — чтение технических статей, ведение переписки и созвонов с международными коллегами.
Желательно иметь
• опыт с LLM-as-Judge подходами (gpt-4-o scoring и т.д.);
• знание Grafana/Prometheus для runtime-метрик;
• опыт A/B-экспериментов или онлайн-валидиции моделей.
Условия:Москва
от 100000 RUR