Мы в 2ГИС активно внедряем искусственный интеллект в наши продукты, рабочие процессы и внутренние сервисы.
Чтобы принимать технически взвешенные решения, нам нужно точно понимать, как разные LLM-модели работают на наших задачах — и когда они действительно приносят пользу, а когда нет.
Для этого мы ищем инженера по автоматизации тестирования, который будет строить и поддерживать бенчмарк-систему для оценки качества моделей.
Задачи
- Построить процесс для сравнительного тестирования LLM (GPT, Claude, Gemini, LLaMA, Qwen, Гигачат и др.) на внутренних задачах.
- Разрабатывать и поддерживать наборы сценариев и метрик качества: точность, полнота, стабильность, отклонения от ожиданий.
- Настраивать прогон моделей по задачам с сохранением результатов, логов, срезов и версий.
- Работать вместе с аналитиками и разработчиками, чтобы подсветить сильные и слабые стороны каждой модели — и вовремя переключаться на более подходящую.
- Следить за выходом новых моделей и помогать команде принимать решения о миграции, если это оправдано.
Что важно
- Уверенно пишете автотесты на Python, умеете работать с API, логами, CI/CD.
- Понимаете основы работы LLM — чем отличаются модели, как их «ломают», как устроены типичные ошибки.
- Умеете выстраивать метрики качества, не только по классическим формулам, но и с учётом контекста и задач.
- Аккуратно подходите к экспериментам: умеете сравнивать “яблоки с яблоками”, не смешивая версии, входы и модели.
- Комфортно себя чувствуете в инженерной среде — умеете обсуждать гипотезы, делиться результатами, быть частью общего цикла разработки.
Эта роль — про инженерную наблюдательность и аккуратность, про то, чтобы команда принимала решения не «на глаз», а на данных. Ты не просто пишешь автотесты, а строишь систему измерения качества — чтобы понять, когда мы можем доверять ИИ, а когда — ещё рано.
Кроме того
- 2ГИС — аккредитованная IT-компания.
- Можно работать удалённо. Для нас важен специалист, а не его локация. Если хочешь работать в гибридном формате, у нас есть офисы в Москве, Санкт-Петербурге, два классных офиса в Новосибирске. А также коворкинги в Томске, Астане и Алма-Ате.
- График не главное. Кто-то начинает работу в 9, кто-то в 11, а кто-то — когда удобно ему и команде. Главное — выполнять задачи в срок и быть на связи с коллегами.
- Само собой, полностью белая зарплата, размер обсуждается на собеседовании, потолка нет.
- Есть ДМС, штатный терапевт, невролог, мед.консультант и другие IT-плюшки.
- Если хочешь делиться своим опытом, мы только за — поможем с выступлениями на конференциях и статьями для Хабра.