Проводить RnD с целью внедрения нового функционала, совершенствования MLOps-платформы;
Разворачивать новые инструменты и сервисы MLOps-платформы;
Cопровождать и развивать инфраструктуру MLOps-платформы: заниматься поиском и оптимизацией узких мест, рассматривать инциденты, устранять аварии, давать консультации пользователям;
Поддерживать/участвовать в реализации практик DevSecOps (внедрение практик безопасности на всех этапах разработки и применения моделей машинного обучения);
Проводить мониторинг использования ресурсов и планировать масштабирование инфраструктуры;
Участвовать в процессах миграции инфраструктуры платформы, подключении новых ресурсов в kubernetes-кластер;
Внедрять систему мониторинга производительности моделей и сервисов. Настраивать алертинг и логирование для быстрого выявления сбоев или деградации производительности.
Требования:
Опыт работы по профилю от 3х лет
Высшее техническое образование
Навыки администрирования Linux, Kubernetes. Понимание и опыт работы с Docker и CI/CD инструментами. Сетевое администрирование.
Умение автоматизировать процессы развертывания и масштабирования.
Анализ производительности инфраструктуры и внесение улучшений для оптимизации скорости работы платформы. Контроль за эффективным использованием ресурсов и затратами.
Понимание концепции observability. Знакомство с инструментами мониторинга и централизованного логирования. Навыки построения дэшбордов и настройки алертов в Grafana.
Умение диагностировать проблемы по логам и метрикам и принимать меры по стабилизации систем.
Умение донести техническое решение до пользователя.
Условия:
Возможность профессионального и карьерного роста в компании
Возможность поучаствовать в разных проектах
Опыт работы в распределенной команде профессионалов
Уровень заработной платы обсуждается индивидуально
Оформление в соответствии с ТК РФ в Bell Integrator https://bellintegrator.ru/