Python Engineer (LLM Evaluation & Analytics Engineer)

Python Engineer (LLM Evaluation & Analytics Engineer)

Описание вакансии

Обязанности:
  • Автоматизированная валидация промтов

писать на Python скрипты, которые:

• берут тестовые сценарии (JSON/CSV);

​ • вызывают актуальные промт-инструкции (через API LLM или локальный сервер);

​ • сохраняют ответы, метаданные и оценки (rouge/BLEU/LLM-as-judge/ручные метки);

​ • формируют отчёты (Markdown/CSV/DB) и алерты при деградации качества;

​ • поддерживать пайплайн с дифф-тестами при каждом изменении промта.

  • Подготовка тестовых датасетов

    ​ • собирать и курировать сценарии (user stories, edge-cases, негативные примеры);

    ​ • анонимизировать, версионировать и документировать выборку.

  • ​Аналитические дашборды (Redash)

    ​ • писать SQL-запросы и визуализации;

    ​ • настраивать auto-refresh и рассылку отчётов.

  • Сотрудничество

    ​ • работать с продакт-менеджером и дизайнером промтов;

    ​ • помогать формулировать метрики качества (precision@k, hallucination rate, UX CSAT)

Требования:

• Python-бэкграунд (3+ года) — асинхронность или multiprocessing, pandas / polars.

• Работа с LLM-стеком и промт-инженерией — вызов моделей, управление параметрами температуры, топ-p; понимание RAG-архитектуры и ограничений больших языковых моделей.

• Автоматизированная оценка качества модели — разработка скриптов pairwise / LLM-as-Judge, метрики ROUGE / BLEU / BERTScore / hallucination rate, отчёты о деградациях.

• Дашборды и аналитика — создание информативных визуализаций.

• Английский не ниже B2 — чтение технических статей, ведение переписки и созвонов с международными коллегами.

Желательно иметь

• опыт с LLM-as-Judge подходами (gpt-4-o scoring и т.д.);

• знание Grafana/Prometheus для runtime-метрик;

• опыт A/B-экспериментов или онлайн-валидиции моделей.

Условия:
  • График работы с 10:00 до 19:00 (гибко, можно обсуждать)
  • Удаленный формат работы
  • Доступ к современным инструментам и технологиям, обучение и профессиональное развитие.
  • Дружелюбная и поддерживающая команда, открытая к инновациям и новым идеям.
Навыки
  • Python
  • PostgreSQL
  • SQL
  • Git
  • Redash
Посмотреть контакты работодателя

Похожие вакансии

Домклик

Python Developer (MLOps)

Домклик

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Hi, Rockits!
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Удаленная работа
  • Москва

  • до 165000 RUR

Рекомендуем
AVO.UZ
Удаленная работа
  • Москва

  • до 165000 RUR

ОптималФлоу Групп
Удаленная работа
  • Москва

  • до 165000 RUR

Платформа Третье Мнение

Middle Python Developer

Платформа Третье Мнение

Удаленная работа
  • Москва

  • до 165000 RUR

Voice AI-инженер

Гринченко Виктор Алексеевич

Удаленная работа
  • Москва

  • до 165000 RUR

БФТ-Холдинг

Data Scientist (LLM)

БФТ-Холдинг

Удаленная работа
  • Москва

  • до 165000 RUR

Стартап Лаборатория

AI Agent Engineer (middle +/senior)

Стартап Лаборатория

Удаленная работа
  • Москва

  • до 165000 RUR

SL Soft
Удаленная работа
  • Москва

  • до 165000 RUR

Hi, Rockits!
Удаленная работа
  • Москва

  • от 250000 RUR

Лига Ставок
Удаленная работа
  • Москва

  • до 290000 RUR

Hi, Rockits!
Удаленная работа
  • Москва

  • до 290000 RUR

Hi, Rockits!

DS/ML engineer

Hi, Rockits!

Удаленная работа
  • Москва

  • до 290000 RUR

Алео-Альянс
Удаленная работа
  • Москва

  • до 380000 RUR

AMarkets
Удаленная работа
  • Москва

  • до 380000 RUR

Версаль
Удаленная работа
  • Москва

  • от 100000 RUR

Бидзаар

ML-инженер

Бидзаар

Удаленная работа
  • Москва

  • от 100000 RUR

Б1 (B1)
Удаленная работа
  • Москва

  • от 100000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию