Москва, Огородный проезд, 16/1с5
Метро: БутырскаяМы Группа Астра – один из лидеров российской IT-индустрии, ведущий производитель программного обеспечения, в том числе защищенных операционных систем и платформ виртуализации. Разработка флагманского продукта, ОС семейства Astra Linux, ведется с 2008 года.
Наша миссия – обеспечить технологический суверенитет России и ее лидерство в мировой IT-индустрии путем создания базовых технологий, специального и пользовательского ПО. Стратегическая цель – к 2030 году стать национальным производителем программных продуктов No1.
Обязанности:
Разработка и поддержка CI/CD пайплайнов для автоматизации процессов машинного обучения и интеграции ИИ-решений.
Проектирование и управление облачной инфраструктурой для масштабируемых ML-систем.
Автоматизация процессов развертывания, масштабирования и мониторинга ML-приложений и сервисов.
Настройка и оптимизация контейнеризации для ML-моделей и микросервисов.
Обеспечение безопасности, отказоустойчивости и мониторинга инфраструктуры ML-систем.
Интеграция и кастомизация инструментов MLOps (MLflow, Kubeflow, Airflow, TFX) в существующую инфраструктуру компании.
Оптимизация процессов обработки больших данных и обучения моделей для повышения эффективности ИИ-решений.
Разработка и внедрение стратегий версионирования моделей и данных.
Создание систем мониторинга производительности и качества ML-моделей в продакшене.
Тесное взаимодействие с командами Data Science, Data Engineering и ML Engineering для оптимизации рабочих процессов.
Документирование архитектуры, процессов и best practices для ML-инфраструктуры.
Требования:
Опыт работы в DevOps/SRE/Infrastructure Engineering от 3 лет, с фокусом на ML-системы.
Глубокие знания и опыт администрирования Linux-серверов в облачных средах.
Уверенное владение технологиями контейнеризации (Docker) и оркестрации (Kubernetes).
Опыт работы с облачными платформами (AWS, GCP, Azure) и их ML-сервисами.
Продвинутые навыки в Git и инструментах CI/CD (GitLab CI, Jenkins, GitHub Actions).
Уверенное владение Python; знание Go или Java будет преимуществом.
Опыт работы с инструментами для автоматизации инфраструктуры (Terraform, Ansible, Helm).
Глубокое понимание сетевых протоколов и безопасности (TCP/IP, DNS, HTTP, SSL/TLS).
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, ELK stack).
Понимание принципов работы ML-моделей и жизненного цикла ML-проектов.
Опыт работы с распределенными системами обработки данных (Spark, Hadoop).
Будет плюсом:
Опыт работы с платформами управления ML-экспериментами (MLflow, Weights & Biases).
Знание фреймворков для оркестрации ML-пайплайнов (Kubeflow, Airflow, Argo).
Опыт работы с системами управления моделями (MLflow, Seldon Core).
Понимание принципов Feature Store и опыт их внедрения.
Знакомство с практиками DataOps и их применение в ML-проектах.
Опыт работы с GPU-кластерами и оптимизации инфраструктуры для глубокого обучения.
Понимание принципов A/B тестирования и их применение в ML-системах.
Опыт работы с технологиями потоковой обработки данных (Kafka, Flink).
Знание методологий Agile и опыт работы в кросс-функциональных командах.
Опыт с системами управления секретами и конфигурациями (HashiCorp Vault, Consul).
Навыки в области анализа и оптимизации производительности ML-систем.
Условия:
Москва
Не указана
Мамаева Ирина Анатольевна
Москва
до 300000 RUR