Python Engineer (LLM Evaluation & Analytics Engineer)

Показать контакты

Описание вакансии

Обязанности:

Автоматизированная валидация промтов

писать на Python скрипты, которые:

• берут тестовые сценарии (JSON/CSV);

• вызывают актуальные промт-инструкции (через API LLM или локальный сервер);

• сохраняют ответы, метаданные и оценки (rouge/BLEU/LLM-as-judge/ручные метки);

• формируют отчёты (Markdown/CSV/DB) и алерты при деградации качества;

• поддерживать пайплайн с дифф-тестами при каждом изменении промта.

Подготовка тестовых датасетов

• собирать и курировать сценарии (user stories, edge-cases, негативные примеры);

• анонимизировать, версионировать и документировать выборку.
Аналитические дашборды (Redash)

• писать SQL-запросы и визуализации;

• настраивать auto-refresh и рассылку отчётов.
Сотрудничество

• работать с продакт-менеджером и дизайнером промтов;

• помогать формулировать метрики качества (precision@k, hallucination rate, UX CSAT)

Требования:

• Python-бэкграунд (3+ года) — асинхронность или multiprocessing, pandas / polars.

• Работа с LLM-стеком и промт-инженерией — вызов моделей, управление параметрами температуры, топ-p; понимание RAG-архитектуры и ограничений больших языковых моделей.

• Автоматизированная оценка качества модели — разработка скриптов pairwise / LLM-as-Judge, метрики ROUGE / BLEU / BERTScore / hallucination rate, отчёты о деградациях.

• Дашборды и аналитика — создание информативных визуализаций.

• Английский не ниже B2 — чтение технических статей, ведение переписки и созвонов с международными коллегами.

Желательно иметь

• опыт с LLM-as-Judge подходами (gpt-4-o scoring и т.д.);

• знание Grafana/Prometheus для runtime-метрик;

• опыт A/B-экспериментов или онлайн-валидиции моделей.

Условия:

График работы с 10:00 до 19:00 (гибко, можно обсуждать)
Удаленный формат работы
Доступ к современным инструментам и технологиям, обучение и профессиональное развитие.
Дружелюбная и поддерживающая команда, открытая к инновациям и новым идеям.