Мы делаем антифрод-систему для видеорекламы. Сейчас проект переходит от MVP к промышленной стадии, и нам нужен инженер, который объединит роли DevOps и MLOps. Мы ищем человека, способного с нуля построить надежную инфраструктуру в Яндекс.Облаке, обеспечить устойчивую работу системы под высокой нагрузкой и выстроить пайплайны для обучения и инференса ML-моделей.
Задачи:
Построение отказоустойчивой инфраструктуры в Яндекс.Облаке для приёма и обработки большого количества сетевых событий (до 5000 RPS)
Развёртывание и поддержка кластеров ClickHouse, Kafka, Airflow, Object Storage, настройка их безопасности, масштабирования и мониторинга
Организация и автоматизация всех ML-функций проекта — от регулярного перескоринга до запуска моделей по расписанию и в real-time
Поддержка и развитие пайплайнов на Python: парсинг, эвристики, скоринг, интеграция с хранилищем и фронтом
Настройка логирования, мониторинга, алертов и аварийного восстановления
Требования:
Опыт работы в DevOps и/или MLOps от 3 лет
Уверенное владение сетевой архитектурой, инфраструктурой облаков (VPC, балансировщики, NAT, сертификаты, приватные/публичные подсети)
Практический опыт настройки и эксплуатации ClickHouse, Kafka, Airflow, понимание их устройства и особенностей
Знание CI/CD-инструментов, умение разворачивать окружения с помощью Terraform, Helm или аналогичных решений
Навыки в Python на уровне поддержки и интеграции скриптов в пайплайны
❗️Будет плюсом, если:
Работали с ML-инфраструктурой: MLflow, DVC, ClearML, Metaflow
Есть опыт развёртывания production-инференса (через API, шины, облачные функции)
Понимаете особенности проектов в сферах антифрода, аналитики, риск-оценки
Работали с высоконагруженными системами (от 1000+ RPS)
Мы предлагаем:
Возможность построить всю инфраструктуру проекта с нуля — от сетей до скоринга
Работу в полностью удалённой команде без бюрократии и микроменеджмента
Высокую автономию и влияние на архитектуру и ключевые решения
Гибкий график, зрелую коммуникацию, прозрачность и доверие
Рост вместе с проектом и возможность вырасти до CTO-инфраструктуры