We are a global company dedicated to creating and investing in innovative digital products that connect people and enhance online interactions.
We're looking for a Senior/Lead Computer Vision Engineer
What You’ll Be Doing:
Build and fine-tune generative CV models such as image-to-image, text-to-image, video-to-image, and IP-adapter-based architectures.
Lead a compact team of 2–3 CV/ML engineers, fostering innovation and setting strategic direction.
Collaborate on developing and enhancing image and video captioning systems, classifiers, and visual ranking models.
Contribute to training pipelines for multimodal agents (optional but appreciated).
Research, plan, and drive the long-term roadmap for CV development within the ML department.
Set up processes for model evaluation, continuous quality improvement, and validation.
Your Expertise:
Hands-on experience training diffusion models, including architecture-level modifications.
Comfortable working with IP-adapters and using libraries like Diffusers and Transformers.
Familiarity with flow-matching training methods and knowledge of diffusion model distillation.
Experience in optimizing and adapting text-to-image and text-to-video models.
Proven track record with CLIP model fine-tuning and visual representation learning.
Bonus: Background in multimodal LLMs and chatbot applications.
Additional plus: Competence in face-swapping technologies.
Nice to have: NLP experience, especially around training or fine-tuning language models.
We offer full remote work with paid vacation, sick days, and other benefits.
Join us!
RU
Мы — международная компания, создающая и инвестирующая в цифровые продукты, которые помогают людям общаться и делают онлайн-взаимодействие более удобным и естественным.
Сейчас мы ищем Senior/Lead инженера по компьютерному зрению.
Что предстоит делать:
Обучать и дорабатывать генеративные модели в области CV: image-to-image, text-to-image, video-to-image, а также использовать архитектуры с IP-adapters.
Руководить небольшой командой из 2–3 инженеров CV/ML: выстраивать процессы, помогать с техническими решениями и развивать команду.
Разрабатывать и улучшать модели генерации описаний, классификации изображений и видео, а также алгоритмы визуального ранжирования.
При желании — участвовать в построении пайплайнов обучения мультимодальных агентов.
Отвечать за планирование и реализацию стратегии развития CV-направления в рамках ML-команды.
Настраивать процессы оценки моделей и контроля качества с возможностью их итерационного улучшения.
Что мы ожидаем:
Практический опыт обучения диффузионных моделей и внесения изменений в их архитектуру.
Знание IP-adapters и уверенное использование библиотек Diffusers и Transformers.
Понимание методов обучения с использованием flow matching и подходов к дистилляции диффузионных моделей.
Опыт настройки и дообучения моделей text-to-image и text-to-video.
Навыки тонкой настройки моделей CLIP и работы с визуальными представлениями.
Дополнительный плюс — опыт с мультимодальными LLM и чат-ботами.
Также приветствуется опыт с face-swapping технологиями.
Наличие опыта в NLP — преимущество, особенно в области обучения языковых моделей и создания диалоговых систем.
Предлагаем полностью удалённую работу с гибким графиком, оплачиваемый отпуск, больничные и т.д.
Присоединяйтесь к нам!
XCloud Labs LTD
Армения
Не указана
Армения
от 4000 USD
Армения
до 4000 EUR