Мы – инновационный проект в сфере искусственного интеллекта, создаём сервис генерации фотореалистичных изображений. Ищем талантливого ML-инженера, который умеет выжимать максимум из нейросетей: ускорять инференс, сокращать время обучения и адаптировать модели под реальные нагрузки.
Чем предстоит заниматься:
Оптимизировать вывод и обучение генеративных моделей (на базе Flux и Julia): использовать Flash-Attention, half/int8, слияние слоёв, ручную реструктуризацию архитектуры.
Экспортировать модели из Flux в ONNX, собирать движки в TensorRT, при необходимости писать кастомные плагины на C/CUDA.
Работать с ComfyUI: создавать кастомные узлы, автоматизировать пайплайны, внедрять кэширование и микробатчинг.
Профилировать узкие места (Nsight, trtexec), собирать метрики и снижать задержки.
Разворачивать решения на облачных GPU (Runpod, AWS), писать CI/CD пайплайны для сборки движков, автотестов и развёртки.
Наш идеальный кандидат:
3 + лет в Python (≥ 3.10) и Julia (≥ 1.10); пишете чистый, типизированный, async-код.
Уверенно работаете с flux.jl и diffusion-моделями.
Опыт CUDA/cuDNN и плагинов TensorRT 8/9.
Конверсия моделей в ONNX, onnx-simplifier, Polygraphy.
Профилировщики — nvprof, Nsight Systems/Compute, trtexec.
Писали кастомные узлы для ComfyUI.
Запускали высоконагруженный инференс на Runpod или AWS, умеете считать P95 latency и VRAM.
Будет плюсом:
Знание Triton для собственных ядер.
Опыт коммерческой работы с Stable-flux 1.x или аналогичными проектами.
Контрибуции в Flux.jl, ComfyUI или другие релевантные репозитории.
Опыт инфраструктурных инструментов (Terraform, Prometheus, Grafana — по желанию).
Что мы предлагаем:
Удаленный формат работы
Интересные задачи без рутины: реализация нестандартных идей, постоянное развитие сервиса.
Мощные GPU
Конкурентную заработную плату, которая пересматривается по результатам.
Команду, где уважают инициативу.
Возможность развивать продукт с высоким трафиком и реальным impact'ом.
Как откликнуться:
Пришли:
GitHub или ссылку на проект с кастомными ML-решениями (желательно — в области генерации изображений).
Пару строк об опыте с flux / TensorRT / кастомными оптимизациями.
Passionate Agency
Москва
от 2000 USD
Першина Маргарита Юрьевна
Москва
от 250000 RUR
Москва
от 250000 RUR