Обязанности: Архитектура RAG‑пайплайна
- Выбор векторной БД (pgvector, Milvus) и ретриверов
- Дизайн схем chunking, re‑ranking, кешей
- Требования к latency ≤ 8 с (P99)
Интеграция LLM - Обёртка над vLLM/ Triton‑Inference
- Канарейка‑деплой, blue‑green, A/B тесты
API & Orchestration - gRPC шлюз к ML‑ядру
- REST/GraphQL фасад для UI и внешних систем
Наблюдаемость - Метрики Prometheus, трейсинг OTEL, логи Loki
- Алёрты в Grafana + Opsgenie
-
Безопасность
- RBAC, Key‑/Secret‑management, audit trail
- Внедрение SAST/DAST в CI
Командная работа - Mentoring ML/Backend dev’ов, code‑review
- Авторы ADR, тех. спецификаций
Требования: Обязательные условия
- 5+ лет проектирования распределённых систем
- Опыт вывода LLM/RAG в продакшн (latency, кеши)
- Уверенный Kubernetes (Helm, HPA, service‑mesh)
- Python или Go на уровне чтения и написания prod‑кода
- Знание Postgres (индексы, репликация)
Необязательные условия
- Опыт в нефтегазе/индустриальном IoT
- Оптимизация GPU‑кластеров (NUMA, MIG)
- FinOps: расчёт TCO/ROI on‑prem vs cloud
- Участие в open‑source (PR’ы в vLLM, LangChain)
Условия: Оборудование
MacBook Pro M2 + доступ к GPU‑кластеру A100/L40
Бонусы
Годовой KPI‑бонус до 20 %, ДМС, 28 дн. отпуска
Обучение
150 k ₽/год (конференции, курсы, сертификация CKAD)