Middle ML Engineer

Описание вакансии

Middle ML Engineer (LLM Training from Scratch, Long-Context up to 1M)

Задача: создать собственную языковую модель (LLM) с нуля, масштабировать контекст до 1 000 000 токенов, построить полный пайплайн обучения, данных и оптимизации.

Обучение модели с нуля

Разработка и обучение архитектуры (Mamba / RWKV / SSM-подобные модели)

Создание и обучение собственного токенизатора

Реализация training loop, loss-ов, оптимизаций

Обучение модели поэтапно:

8k → 32k → 128k → 512k → 1M контекст

Построение пайплайна данных

Сбор и очистка корпуса текстов (50–300GB)

Дедупликация, нормализация, фильтрация

Streaming dataset, sharding, large-scale dataloaders

Подготовка long-sequence датасетов (до 1M токенов)

Инфраструктура тренинга

Multi-GPU обучение (DeepSpeed / FSDP)

Mixed precision (BF16)

Gradient checkpointing, memory optimization

Логирование (WandB/MLflow), трекинг метрик

Контроль качества (perplexity / eval sets)

Long-context специализация

Curriculum learning по длинам

Streaming training и state carry

Оптимизация модели под контекст до 1 000 000 токенов

Тестирование long-context задач (QA / reasoning / doc memory)

Инструкционное и диалоговое дообучение

Instruction-tuning под формат ассистента

Сбор и подготовка датасетов диалогов

Post-training улучшение качества

Требования

Обязательные

1. Опыт и образование

3+ лет опыта в Machine Learning / Deep Learning

Уверенный PyTorch (включая кастомные модели)

Опыт обучения моделей с нуля (не только fine-tune)

Опыт с Transformers или SSM-моделями

2. Навыки обучения LLM

Умение обучать модели от 50M до 1B параметров

Опыт создания токенизаторов (SentencePiece/BPE)

Умение работать с большими датасетами (10–500GB)

Опыт Multi-GPU обучения (DDP/DeepSpeed/FSDP)

3. Инфраструктура

Docker, Linux, Git

MLflow / WandB

Оптимизация GPU VRAM

Знание NVIDIA stack (nvidia-smi, DCGM, profiling)

4. Математика и алгоритмы

Оптимизация (AdamW, LR schedules, warmup)

регуляризация

работа с длинными последовательностями

понимание SSM/RNN/attention различий

Будет плюсом

Опыт с Mamba, RWKV, RetNet, SSM-based архитектурами

Опыт long-context тренировки (64k–1M+)

Опыт обучения embedding моделей

Знание DeepSpeed ZeRO-3

Опыт в data engineering / распределённых данных

Понимание архитектур Llama/GPT

Опыт RAG систем

Что мы предлагаем

Реальная возможность создать свою собственную LLM

Проект уровня R&D, но с чёткой практической целью

Работа рядом с CTO (быстрое принятие решений)

Возможность вырасти до Senior/Lead

Открытая архитектура, GPU ресурсы

Современный ML стек

Процесс отбора

1. Тестовое задание:

Обучить небольшую модель с нуля (10–20M параметров):

создать токенизатор

собрать датасет

написать training loop

показать логи, чекпоинт, perplexity

2. Техническое интервью (ML + deep learning + PyTorch)

3. Оффер

Посмотреть контакты работодателя

Похожие вакансии

Белэнергоремналадка

Инженер-конструктор

Белэнергоремналадка

Удаленная работа
  • Минск

  • Не указана

Рекомендуем

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию