Разработчик ML/RL

Показать контакты

Описание вакансии

На данный момент мы ищем Разработчик ML/RL , который будет работать с продуктом «ВкусВилл».

Обязанности:

Разработка и обучение RL-моделей: cоздание и тренировка агентов для решения задач манипуляции (сборка, сортировка, захват, откручивание/закручивание) в симуляции с последующим переносом на реального робота (Sim2Real).
Проектирование и построение симуляционных сред: разработка высокодетализированных и физически достоверных сред (Isaac Sim / MuJoCo / PyBullet) для ускоренного обучения и тестирования алгоритмов.
Проектирование и реализация end-to-end пайплайнов сбора данных для Imitation Learning (включая Behaviour Cloning и DAgger).
Разработка стратегий, инструментов телеоперации и инфраструктуры для записи, хранения, обработки и аугментации демонстраций.
Создание представлений состояния (State Representation): разработка методов преобразования сырых данных с сенсоров (камер, тактильных датчиков) в информативные embedding для агента.
Исследование и внедрение современных методов: применение таких подходов, как Imitation Learning, Inverse Reinforcement Learning, Diffusion Policies, Transformer-based policies для улучшения данных и ускорения сходимости обучения.
Анализ и обеспечение качества данных: постоянный мониторинг покрытия пространства состояний, выявление и устранение bias в данных, итеративное улучшение процесса сбора для повышения эффективности обучения моделей.
Разработка и оптимизация архитектур нейросетей: создание эффективных policy и value networks, работающих в режиме реального времени на бортовом компьютере робота.
Тесная работа с инженерами-робототехниками: интеграция разработанных ML-моделей в низкоуровневые системы управления (через ROS/ROS 2), анализ сбоев и итеративное улучшение производительности на реальном "железе".
Менторство и руководство: лидерство в технических решениях внутри ML-команды, передача знаний, проведение код-ревью, участие в планировании roadmap.

Знание следующего стека технологий:

Языки: Python (основной), C++ (для продакшен-оптимизациии интеграции).
ML-фреймворки: PyTorch, JAX, TensorFlow.
RL-библиотеки: Stable-Baselines3, RLLib, др.
Симуляция: NVIDIA Isaac Sim, Mujoco, PyBullet, Drake.
Инфраструктура: Docker, Git, MLflow/Weights & Biases, SLURM/Kubernetes для управления вычислениями.
Робототехника: ROS/ROS 2, управление роботами-манипуляторами.
Данные: инструменты для сбора данных,,телеоп, базы данных для хранения демонстраций.

Требования:

Практический опыт (от 3+ лет) в разработке и тренировке ML/RL-моделей.
Понимание и практический опыт применения Imitation Learning, включая проектирование пайплайнов сбора данных для Behaviour Cloning. Понимание проблем распределенного сдвига (distribution shift) и методов их митигации (например, DAgger).
Опыт реализации проектов, по разработке и обучению RL-агента для решения прикладной задачи с ноля.
Свободное владение PyTorch.
Глубокое понимание архитектур нейронных сетей (CNN, RNN, Transformers).
Опыт работы с физическими симуляторами (любой из MuJoCo, PyBullet, Isaac Sim) и понимание и опыт преодоления проблем Sim2Real.
Понимание фундаментальных принципов робототехники: кинематика, динамика, проблемы управления.
Опыт работы с инструментами теледоперации и создания программного обеспечения для записи демонстраций.
Продвинутые навыки Python и инженерии ML-систем (чистый код, тестирование, воспроизводимость, пайплайны обучения).
Уверенные математические знания в области теории вероятностей, линейной алгебры и оптимизации.
Способность вести исследовательские и инженерные проекты от идеи до внедрения.

Условия:

Работу в аккредитованной IT-компании.
Удалёнка. Для нас важны результаты работы без привязки к месту.
Официальное оформление с первого дня работы.
Поддержку куратора во время адаптации.
Внутреннее обучение soft & hard skills, создание индивидуального плана развития;
Социальная ответственность. Поощряем донорство, оказываем материальную помощь при рождении ребёнка.
Компенсируем затраты на любые медицинские услуги или ДМС.
Поддержка здорового образа жизни. Компенсация фитнес-абонементов, тренировок.
Партнерскую программу «Зелёный свет»: за рекомендации знакомых специалистов можно получить до 50 000 руб.
Богатый опыт сплоченной и профессиональной команды.