Senior SRE-инженер

Альфа-Банк

Senior SRE-инженер

г. Москва

Описание вакансии

Чем предстоит заниматься:

Команда разработки на платформе AlfaGen, направления - LLMOPS

  • Эксплуатация и развитие Kubernetes‑кластеров (3+ года в проде): проектирование архитектуры, обновления, обеспечение отказоустойчивости, безопасности и multi‑tenant‑модели
  • Внедрение и сопровождение ML/Inference‑платформ: развёртывание KServe/Kubeflow, автоматизация CI/CD для моделей через Argo Workflows / Argo CD, управление жизненным циклом моделей
  • Развертывание AI‑облаков с GPU NVIDIA: дизайн и конфигурация приватных/публичных облаков, использование GPU‑operator, DCGM; планирование ёмкости и биллинг GPU‑h, tokens/sec
  • Проектирование и оптимизация Infiniband‑фабрик: установка Mellanox‑коммутаторов, настройка и тюнинг OpenSM, RDMA, SR‑IOV, Multus
  • Инфраструктура‑как‑код: разработка и поддержка модулей Ansible и Terraform для автоматического provisioning, конфигурации и DR
  • Автоматизация и скриптинг на Go/Python: создание служебных утилит, интеграция с внешними API
  • Управление хранилищами данных: эксплуатация и тюнинг NFS‑кластеров, объектных S3‑хранилищ (MinIO/Ceph/S3‑совместимых), бэкап и восстановление
  • Эксплуатация сетевой и сервисной инфраструктуры: Istio, HAProxy, Calico, Kyverno, Vault, OpenSearch, Vector, Kafka, VictoriaMetrics, Patroni/PostgreSQL
  • Наблюдаемость и алёртинг: экспорт метрик Prometheus/VictoriaMetrics, Grafana‑дашборды, Alertmanager и авто‑rollback через Argo
  • Документация и knowledge‑sharing: подготовка технической документации, менторинг команды, использование англоязычных материалов

Чего мы ждем от тебя:

  • Опыт сопровождения Kubernetes от 3 лет
  • Опыт сопровождения, внедрения, использования инференс и ML платформ Опыт внедрения кластеров виртуализации, частных/публичных облаков с использованием GPU Nvidia для AI/ML, в т.ч. LLM
  • Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox.
  • Понимание работы, тюнинг и настрока OpenSM (настройка фабрик Infiniband)
  • Навыки использования Go\Python (создание скриптов, операторов K8S)
  • Знание и применение Ansible/Terraform
  • Понимание принципов работы NFS, S3 (опыт работы приветствуется)

Что мы предлагаем:

  • Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
  • Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
  • Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
  • Сложные и интересные задачи, современный стек технологий
  • Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
  • Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
  • Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
  • Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
  • Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию