LLM inference lead (MLOps)

HeadHunter

LLM inference lead (MLOps)

Москва, улица Годовикова, 9с10

Метро: Алексеевская

Описание вакансии

Мы строим платформу LLM‑инференса, обслуживающую как внутренние, так и продакшен-сервисы. Наша миссия — обеспечить стабильный, масштабируемый и экономичный сервинг больших языковых моделей. Мы ищем инженера‑лидера, который возглавит развитие инфраструктуры, оптимизацию latency и throughput, а также внедрение передовых подходов к распределенному LLM‑инференсу.

Обязанности:

  • ​​Возглавить разработку и оптимизацию инфраструктуры инференса LLM‑моделей, обеспечивая минимальную задержку и высокую пропускную способность для внутренних приложений и сервисов.
  • Проектировать end‑to‑end пайплайны LLM‑инференса, включая шардирование моделей и потоковую генерацию токенов.
  • Обеспечивать масштабируемость и надежность LLM‑serving инфраструктуры, выбор инструментов для инференса (vLLM, TensorRT‑LLM, Triton, DeepSpeed‑Inference).
  • Разрабатывать и внедрять механизмы оптимизации стоимости и производительности GPU‑нагрузок
  • Построить систему observability и мониторинга LLM‑инференса: латентность, token throughput, GPU utilization, промахи кэша KV‑storage и т.п.

Ключевые знания и навыки:

  • Глубокая экспертиза в архитектуре и инференсе больших языковых моделей.
  • Понимание устройства моделей (трансформеры, BERT, LLM и т.д.)
  • Опыт построения высокопроизводительных LLM‑сервисов с использованием vLLM, TensorRT‑LLM/FasterTransformer/Triton Inference Server/etc.
  • Знание методов оптимизации и ускорения LLM‑инференса: quantization (FP16, INT8, FP8), FlashAttention, paged attention, speculative decoding.
  • Понимание нюансов распределенных систем и GPU‑коммуникации (NCCL, MPI, RDMA, InfiniBand).
  • Опыт в управлении кластером для LLM‑нагрузок (Kubernetes, Ray, KServe, Kubeflow) в облаке или на своем железе.
  • Уверенное владение Python
  • Знание инструментов профилирования GPU (nvidia‑smi, Nsight, TensorRT Profiler).
  • Опыт участия в архитектурном дизайне крупных AI‑платформ
  • Опыт управления командой инженеров.
  • Продвинутые навыки работы в Linux, CI/CD и системах оркестрации моделей.

Будет преимуществом:

  • Опыт построения LLM‑сервисов с потоковой генерацией токенов (streaming inference).
  • Знание особенностей служебных компонентов LLM‑пайплайна: токенизаторы, KV‑кэш, контекстное окно.
  • Понимание внутренней архитектуры GPU (CUDA, cuDNN, Tensor Cores) для глубокой оптимизации производительности.
  • Участие в проектах по оптимизации инфраструктуры для LLM‑инференса на уровне платформы (multi‑tenant LLM serving, dynamic batching).
  • Понимание принципов векторных баз данных (Milvus/Qdrant/FAISS/pgvector) для RAG‑решений и не только.

Что предлагаем мы:

  • Возможность выбора формата работы: гибрид, удаленно или из офиса
  • Гибкий график
  • Корпоративный ДМС со стоматологией c первого месяца работы
  • Активная корпоративная жизнь: регулярно проводим неформальные оффлайн-встречи, возможность командировок из других городов
  • Хороший тренажерный зал в офисе и душ при нем, а также занятия йогой, настольный теннис и кикер
  • Кофе в кофемашинах, чай, печенье, фрукты на кухне
  • Электронная корпоративная библиотека
  • Молодой, профессиональный и дружный коллектив
  • Возможность профессионального развития, обучения за счет компании, участия в конференциях
  • Достойный уровень заработной платы
  • Совместную постановку целей и индивидуальный план развития

Навыки
  • Triton
  • vLLM
  • BERT
  • LLM
  • Inference
  • Kubernetes
  • Python
  • GPU
  • MLOps
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Employcity

Lead ML Engineer

Employcity

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Интеграция Дистрибуция Проекты

Python AI-разработчик (LangChain/LLM) Middle/Senior

Интеграция Дистрибуция Проекты

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Star Leads

Senior ML Engineer

Star Leads

Удаленная работа
  • Москва

  • от 350000 RUR

Рекомендуем
Перспектива

Senior NLP/ML Engineer

Перспектива

Удаленная работа
  • Москва

  • до 400000 RUR

РДП Энтерпрайз

Technical Lead

РДП Энтерпрайз

Удаленная работа
  • Москва

  • до 400000 RUR

Americor Funding Inc

Senior ML Engineer (Calls.ai)

Americor Funding Inc

Удаленная работа
  • Москва

  • от 5000 USD

Октопустех
Удаленная работа
  • Москва

  • от 5000 USD

AdSensor
Удаленная работа
  • Москва

  • от 6000 USD

Компания БКС

MLOps (Senior)

Компания БКС

Удаленная работа
  • Москва

  • от 6000 USD

ArtVolkov.ru
Удаленная работа
  • Москва

  • до 850000 RUR

билайн

Senior Data Engineer

билайн

Удаленная работа
  • Москва

  • до 850000 RUR

Physical Transformation/Физикл

CTO (Chief Technology Officer)

Physical Transformation/Физикл

Удаленная работа
  • Москва

  • до 850000 RUR

МТС
Удаленная работа
  • Москва

  • до 850000 RUR

ГНИВЦ
Удаленная работа
  • Москва

  • до 850000 RUR

Team Lead (Golang)

Мамаева Ирина Анатольевна

Удаленная работа
  • Москва

  • до 430000 RUR

M1
Удаленная работа
  • Москва

  • до 430000 RUR

Центр Разработки IT-Сервисов Динго

Senior Python-разработчик

Центр Разработки IT-Сервисов Динго

Удаленная работа
  • Москва

  • от 300000 RUR

Митрофанов Евгений Николаевич

Системный архитектор / Tech Lead (SaaS + AI)

Митрофанов Евгений Николаевич

Удаленная работа
  • Москва

  • до 400000 RUR

Удаленная работа
  • Москва

  • от 5000 USD

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию