AI / ML Engineer

Описание вакансии

Мы создаем высокотехнологичную платформу, которая позволяет эффективно обучать AI-модели (включая большие языковые модели, LLM), используя простаивающие вычислительные мощности GPU в дата-центрах по всему миру. Наша цель — построить масштабируемую, отказоустойчивую распределенную систему для безопасного и высокопроизводительного обучения моделей.

Для усиления нашей команды мы ищем талантливого AI / ML инженера, который возьмется за проектирование и реализацию ключевых компонентов нашего распределенного ML-пайплайна.

Что мы предлагаем

Конкурентная зарплата: до $10 000 (на руки).
Полностью удаленная работа из любой точки мира.
Влияние на архитектуру: Возможность с нуля формировать облик compute-платформы.
Масштабные задачи: Работа с кластерами из десятков и сотен GPU в различных дата-центрах.
Технологическая свобода: Самостоятельный выбор оптимальных технологий и инструментов для построения ML-пайплайна.
Динамичная среда: Сложные вызовы, быстрые итерации, минимум бюрократии.
Ключевая роль: Ваша работа будет напрямую влиять на развитие и успех нашего бизнеса.

Чем предстоит заниматься:

Разработка и оптимизация end-to-end пайплайна обучения моделей (LLM, классические ML, мультимодальные).
Интеграция фреймворков (PyTorch, TensorFlow, JAX) с нашей compute-платформой.
Настройка и оптимизация распределенного обучения (Data/Model Parallel, FSDP/ZeRO, DDP).
Разработка и оптимизация Docker-контейнеров для задач обучения и их оркестрация с помощью Kubernetes.
Построение надежного пайплайна данных: от загрузки и подготовки до обучения и выгрузки артефактов.
GPU-профилирование и низкоуровневая оптимизация (CUDA, NCCL).
Взаимодействие с backend-командой по проектированию API для оркестрации задач.
Настройка системы мониторинга обучения: сбор метрик, логов и данных профилирования.
Исследование и внедрение новых фреймворков и подходов для ускорения обучения LLM.

Что мы ожидаем:

Профильный опыт работы более 5 лет.
Отличный практический опыт работы с PyTorch. Знание TensorFlow или JAX будет большим плюсом.
Опыт настройки и оптимизации распределенного обучения моделей с использованием PyTorch Distributed (DDP), DeepSpeed (FSDP, ZeRO), Hugging Face Accelerate.
Понимание архитектуры GPU, принципов работы CUDA и библиотек межпроцессного взаимодействия (NCCL).
Глубокие знания Python и коммерческий опыт разработки, включая умение писать оптимизированный код для тренировки моделей.
Опыт работы с Docker и с Kubernetes. Понимание полного цикла ML-процессинга: работа с датасетами, загрузчиками данных, системой чекпоинтов, возобновления обучения и метрик.
Умение выявлять и устранять "узкие места" производительности (CPU/GPU, I/O, сеть). Знание инструментов мониторинга: TensorBoard, Weights & Biases, Prometheus.

Будет преимуществом:

Опыт тонкой настройки (fine-tuning) и обучения больших языковых моделей (LLM) с использованием таких инструментов, как Hugging Face Transformers, DeepSpeed и Megatron-LM.
Опыт разработки или глубокой оптимизации кластерных вычислительных систем.
Навыки оптимизации инференса с помощью Triton, ONNX, TensorRT.
Базовые знания Go или Rust для взаимодействия с низкоуровневыми компонентами системы.