Развёртывание и масштабирование инфраструктуры: Проектирование, развертывание и конфигурация серверной и облачной инфраструктуры для запуска моделей Generative AI. Обеспечение масштабируемости (например, настройка кластеров Kubernetes для обслуживания моделей под высокими нагрузками);
CI/CD: Построение конвейеров непрерывной интеграции и доставки изменений (в частности для деплоя LLM-моделей);
Мониторинг и надежность: Внедрение систем мониторинга производительности моделей и сервисов (метрики времени отклика, использование ресурсов, качество ответов моделей). Настройка алертинга и логирования для быстрого выявления сбоев или деградации производительности систем;
Оптимизация и эффективность: Анализ производительности инфраструктуры и внесение улучшений для оптимизации скорости работы систем (например, использование GPU/TPU). Контроль за эффективным использованием ресурсов и затратами;
Изучение и внедрение новых инструментов в процессы работы;
Сотрудничество с командами. Консультирование коллег по лучшим практикам DevOps/LLMOps.
Что мы ждём:
Высшее техническое образование (информатика, прикладная математика или смежное);
Опыт работы MLOps / LLMOps или DevOps-инженером не менее 3 лет, участие в проектах по внедрению ИИ в продакшен будет плюсом;
Контейнеризация и оркестрация: Уверенное владение Docker для контейнеризации приложений; опыт работы с Kubernetes, OpenShift, знание Helm для управления чартами будет плюсом;
CI/CD и автоматизация: Практические навыки настройки CI/CD-процессов. Знание скриптовых языков (Bash, Python) для автоматизации задач. Будет плюсом умение/желание разрабатывать небольшие сервисы на Python;
Облачные технологии и инфраструктура: Опыт работы с облачными платформами (AWS, Azure, GCP) либо частными облаками; понимание специализированных сервисов для LLM/ML (например, AWS SageMaker, Azure ML Studio) приветствуется. Навыки Infrastructure as Code (Terraform, Ansible) для управления конфигурацией;
Мониторинг и логирование: Понимание концепции observability. Знакомство с инструментами мониторинга (Prometheus, Grafana) и централизованного логирования (ELK-stack: Elasticsearch, Logstash, Kibana, либо EFK с Fluentd). Умение диагностировать проблемы по логам и метрикам и принимать меры по стабилизации систем;
Базы данных: Понимание работы систем хранения данных, опыт работы с СУБД (SQL/NoSQL) и распределенными системами для подготовки и обработки данных под модели. Навык оптимизации запросов и работы с большими объемами данных.