Обязанности:
Организация и поддержка инфраструктуры для развертывания ML/AI моделей
Автоматизация процессов поставки ML/AI-моделей: настройка пайплайнов CI/CD для обучения, тестирования и деплоя
Мониторинг производительности: разработка и внедрение системы мониторинга, отслеживание метрик точности, задержек и отказоустойчивости
Обеспечение повторяемости обучения моделей через управление версиями данных и моделей (например, с использованием DVC или аналогов)
Настройка и управление окружением для обучения и тестирования моделей
Взаимодействие с разработчиками, аналитиками данных и DevOps-инженерами для интеграции моделей в общий продукт
Документирование пайплайнов и процедур, чтобы обеспечить прозрачность и поддержку системы
Требования:
Опыт работы в ML Ops или DevOps со специализацией в области машинного обучения
Опыт развертывания и сопровождения ML-моделей
Понимание всего жизненного цикла модели машинного обучения: от подготовки данных до внедрения в продакшен и мониторинга
Технические навыки:
Владение инструментами для работы с ML-моделями: TensorFlow, PyTorch
Опыт работы с системами контейнеризации (Docker) и оркестрации контейнеров (Kubernetes)
Знание инструментов для мониторинга производительности, таких как Prometheus, Grafana, или аналогов
Опыт работы с пайплайнами GitLab CI/CD
Умение работать с системами управления версиями данных и моделей, такими как DVC, MLflow, или аналогами
Глубокое знание Linux и опыт работы с виртуальными машинами или GPU-инстансами для обучения моделей
Знание языков программирования: Python (для работы с ML-библиотеками) и Bash (для автоматизации процессов)
Умение разрабатывать и внедрять системы мониторинга
Опыт работы с Inference серверами (vLLM, TGI, Triton)
Владение инструментами для работы с ML-моделями: TensorFlow, PyTorch, Transformers
Условия:
Москва
от 4000 USD
585, Холдинг
Москва
до 370000 RUR
Басенко Виктор Александрович
Москва
от 150000 RUR
ПраймКит
Москва
до 320000 RUR
Москва
до 320000 RUR
Стрит Фалькон
Москва
от 200000 RUR