Чем предстоит заниматься:
Команда разработки на платформе AlfaGen, направления - LLMOPS
- Эксплуатация и развитие Kubernetes‑кластеров (3+ года в проде): проектирование архитектуры, обновления, обеспечение отказоустойчивости, безопасности и multi‑tenant‑модели
- Внедрение и сопровождение ML/Inference‑платформ: развёртывание KServe/Kubeflow, автоматизация CI/CD для моделей через Argo Workflows / Argo CD, управление жизненным циклом моделей
- Развертывание AI‑облаков с GPU NVIDIA: дизайн и конфигурация приватных/публичных облаков, использование GPU‑operator, DCGM; планирование ёмкости и биллинг GPU‑h, tokens/sec
- Проектирование и оптимизация Infiniband‑фабрик: установка Mellanox‑коммутаторов, настройка и тюнинг OpenSM, RDMA, SR‑IOV, Multus
- Инфраструктура‑как‑код: разработка и поддержка модулей Ansible и Terraform для автоматического provisioning, конфигурации и DR
- Автоматизация и скриптинг на Go/Python: создание служебных утилит, интеграция с внешними API
- Управление хранилищами данных: эксплуатация и тюнинг NFS‑кластеров, объектных S3‑хранилищ (MinIO/Ceph/S3‑совместимых), бэкап и восстановление
- Эксплуатация сетевой и сервисной инфраструктуры: Istio, HAProxy, Calico, Kyverno, Vault, OpenSearch, Vector, Kafka, VictoriaMetrics, Patroni/PostgreSQL
- Наблюдаемость и алёртинг: экспорт метрик Prometheus/VictoriaMetrics, Grafana‑дашборды, Alertmanager и авто‑rollback через Argo
- Документация и knowledge‑sharing: подготовка технической документации, менторинг команды, использование англоязычных материалов
Чего мы ждем от тебя:
- Опыт сопровождения Kubernetes от 3 лет
- Опыт сопровождения, внедрения, использования инференс и ML платформ Опыт внедрения кластеров виртуализации, частных/публичных облаков с использованием GPU Nvidia для AI/ML, в т.ч. LLM
- Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox.
- Понимание работы, тюнинг и настрока OpenSM (настройка фабрик Infiniband)
- Навыки использования Go\Python (создание скриптов, операторов K8S)
- Знание и применение Ansible/Terraform
- Понимание принципов работы NFS, S3 (опыт работы приветствуется)
Что мы предлагаем:
- Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
- Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
- Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
- Сложные и интересные задачи, современный стек технологий
- Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
- Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
- Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
- Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
- Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины