LLM evaluation engineer

Описание вакансии

Мы в 2ГИС активно внедряем искусственный интеллект в наши продукты, рабочие процессы и внутренние сервисы.
Чтобы принимать технически взвешенные решения, нам нужно точно понимать, как разные LLM-модели работают на наших задачах — и когда они действительно приносят пользу, а когда нет.
Для этого мы ищем инженера по автоматизации тестирования, который будет строить и поддерживать бенчмарк-систему для оценки качества моделей.

Задачи

Построить процесс для сравнительного тестирования LLM (GPT, Claude, Gemini, LLaMA, Qwen, Гигачат и др.) на внутренних задачах.
Разрабатывать и поддерживать наборы сценариев и метрик качества: точность, полнота, стабильность, отклонения от ожиданий.
Настраивать прогон моделей по задачам с сохранением результатов, логов, срезов и версий.
Работать вместе с аналитиками и разработчиками, чтобы подсветить сильные и слабые стороны каждой модели — и вовремя переключаться на более подходящую.
Следить за выходом новых моделей и помогать команде принимать решения о миграции, если это оправдано.

Что важно

Уверенно пишете автотесты на Python, умеете работать с API, логами, CI/CD.
Понимаете основы работы LLM — чем отличаются модели, как их «ломают», как устроены типичные ошибки.
Умеете выстраивать метрики качества, не только по классическим формулам, но и с учётом контекста и задач.
Аккуратно подходите к экспериментам: умеете сравнивать “яблоки с яблоками”, не смешивая версии, входы и модели.
Комфортно себя чувствуете в инженерной среде — умеете обсуждать гипотезы, делиться результатами, быть частью общего цикла разработки.

Эта роль — про инженерную наблюдательность и аккуратность, про то, чтобы команда принимала решения не «на глаз», а на данных. Ты не просто пишешь автотесты, а строишь систему измерения качества — чтобы понять, когда мы можем доверять ИИ, а когда — ещё рано.

Кроме того

2ГИС — аккредитованная IT-компания.
Можно работать удалённо. Для нас важен специалист, а не его локация. Если хочешь работать в гибридном формате, у нас есть офисы в Москве, Санкт-Петербурге, два классных офиса в Новосибирске. А также коворкинги в Томске, Астане и Алма-Ате.
График не главное. Кто-то начинает работу в 9, кто-то в 11, а кто-то — когда удобно ему и команде. Главное — выполнять задачи в срок и быть на связи с коллегами.
Само собой, полностью белая зарплата, размер обсуждается на собеседовании, потолка нет.
Есть ДМС, штатный терапевт, невролог, мед.консультант и другие IT-плюшки.
Если хочешь делиться своим опытом, мы только за — поможем с выступлениями на конференциях и статьями для Хабра.