Мы создаём современную облачную платформу, предназначенную для обучения и запуска моделей машинного обучения и продуктов с применением искусственного интеллекта. Платформа обеспечивает централизованный доступ к высокопроизводительным вычислительным ресурсам (CPU, GPU), системе хранения данных, средствам оркестрации контейнеров и виртуальных машин, а также инструментам поддержки полного жизненного цикла ML-моделей.
Обязанности
Развёртывание, настройка и сопровождение подсистем управления виртуализацией (zVirt, Kubernetes), контейнеризации и оркестрации.
Администрирование инфраструктуры IaaS/PaaS: управление виртуальными машинами, контейнерами, хранилищами, сетями.
Обеспечение интеграции с корпоративными системами безопасности и каталогами пользователей (LDAP, Active Directory, Keycloak).
Управление системой контроля доступа (RBAC/ABAC), настройка политик безопасности и лимитов потребления ресурсов.
Конфигурация и мониторинг среды разработки ML (JupyterLab, VSCode) и средств управления жизненным циклом ML-моделей (регистрация, хранение, версия).
Поддержка и обслуживание систем мониторинга, логирования, резервного копирования и восстановления.
Организация и проведение тестирования, диагностика и устранение неисправностей инфраструктуры.
Взаимодействие с командами разработки и пусконаладочные работы.
Сопровождение документации и участие в подготовке внутрикорпоративных инструктажей.
Требования
Высшее техническое образование (информационные технологии, вычислительная техника, прикладная математика и пр.).
Опыт работы с Linux-серверами (желательно российские дистрибутивы Astra Linux, РЕД ОС, AlmaLinux).
Практический опыт с виртуализацией (KVM, zVirt, oVirt, OpenStack) и контейнеризацией (Docker, Kubernetes).
Знание принципов и практик управления доступом (RBAC, ABAC), опыт интеграции с LDAP/AD и системами SSO.
Навыки работы с ML-инструментами и средами разработки (Python, ML-фреймворки Keras, PyTorch, TensorFlow, Jupyter).
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, ELK).
Знания сетевых технологий (VLAN, маршрутизация, IP-адресация), баз данных (PostgreSQL, MySQL, Redis).
Понимание принципов безопасности информационных систем и мер защиты данных.
Навыки работы с API, автоматизацией (Ansible, CI/CD инструменты), скриптинг (bash, Python).
Умение работать в команде, коммуникабельность, инициативность.
Будет преимуществом
Опыт работы с высоконагруженными системами и распределёнными вычислениями.
Сертификация в области виртуализации, Kubernetes и/или безопасности.
Опыт поддержки облачных сред в закрытом контуре (без подключения к Интернету).
Знание методологий DevOps и MLOps.
Москва
Не указана
Академия REMOTE TEAM
Москва
от 140000 RUR
Москва
от 140000 RUR
РДП Энтерпрайз
Москва
от 140000 RUR