AI integrator/Инженер-архитектор ИИ медиапайплайна

Москва, Краснопрудная улица, 26/1

Описание вакансии

22 33 — российский бренд, который разрабатывает и продаёт практичные и стильные товары для дома, кухни и уборки. Мы работаем на маркетплейсах Wildberries и Ozon, развивая и создавая товары, которые делают быт проще и приятнее.

В 2024 году нашими товарами воспользовались более 150 000 покупателей — и мы продолжаем активно расти! Сейчас мы ищем креатора / блогера, который поможет нам делать яркий и вирусный видеоконтент для нашего бренда.

Что нужно будет делать:

Создать интеллектуальную систему, которая способна искать, анализировать, собирать и генерировать видеоконтент в формате коротких вертикальных роликов — в автоматическом режиме, под заданный сценарий и фирменный стиль бренда.

По сути нам нужно сделать медиаконструктор и специалист, который сможет построить этот механизм.

ОСНОВНЫЕ ЗАДАЧИ:

I. Медиапайплайн и автоматизация
• Создание системы семантического поиска по видеоконтенту (YouTube, лицензированные базы, архивы, открытые источники).
• Интеграция с сервисами транскрипции, анализа аудио и видео, классификации сюжетов и персонажей.
• Реализация автоклиппинга: извлечение фрагментов, их форматирование в вертикальный формат 9:16, автоматическое кадрирование, субтитры, оформление.
• Создание механизма автоматического монтажа и озвучки (синхронизация текста, видео и TTS-голоса).
• Разработка структуры для массовой генерации шортcов: до сотен уникальных роликов в сутки.
• Настройка аналитики: скорость генерации, точность поиска, вовлечение аудитории, показатели retention и CTR.
• Поддержка чистоты данных и правомерности использования источников (авторское право, лицензии, fair use).
• Документирование архитектуры, API и пайплайнов.

II. Генерация видео «с нуля» (Generative AI / Deepfake / Full CGI)
• Разработка и интеграция text-to-video-модулей (Pika, Runway Gen-2, Synthesia, Kling, Hailuo, Veo 3, Sora и др.) для генерации визуальных сцен по сценарию.
• Настройка deepfake-технологий для синхронизации речи и мимики (lip-sync, emotion mapping) — с соблюдением этических стандартов и прозрачности.
• Создание full CGI-пайплайна: 3D-сцены, освещение, движение камеры, фотореалистичная интеграция ассетов.
• Разработка аватаров и CG-персонажей, имитирующих реальные актёрские эмоции.
• Настройка story-orchestration-модуля — генерация сценария, озвучки, видео и монтажа в едином потоке.
• Оптимизация вычислительных ресурсов (GPU-фермы, кэширование, рендер-кластер).
• Система AI-этики и маркировки синтетического контента.
• A/B-тестирование моделей и визуальных решений для повышения реалистичности и удержания зрителя.

III. AI-интеграция синтетических объектов в реальное видео (AI Video Compositing / Inpainting / Insertion)

— Добавление и внедрение синтетических объектов или персонажей в уже готовый видеоматериал при помощи AI-инструментов (Pika Labs, Runway ML, Kling AI, ControlNet + AnimateDiff).
— Пример: «встроить кошку, перебегающую на заднем плане» — генерация и композитинг элемента с учётом движения камеры, освещения и перспективы.
— Применение методов AI inpainting, depth mapping, motion tracking, чтобы добавленные элементы выглядели естественно.
— Разработка полуавтоматического пайплайна, в котором ИИ-редактор дополняет живое видео в фоновом режиме без ручного пост-монтажа.
— Использование инструментов Depth Anything, Segment Anything, ComfyUI для выделения областей и корректного наложения.
— Обеспечение фирменной эстетики бренда (золото-изумруд, математическая геометрия, минимализм) в итоговом визуале.

IV. Автоматическая миксовка, озвучка и публикация видео (AI Video Assembly & Distribution)

— Разработка модуля, который автоматически комбинирует короткие видеосцены в тысячи уникальных роликов, создавая разные нарративные последовательности.
— Использование генеративных моделей (GPT-4, Claude, Mistral) для написания сценариев, нарративов и описаний к каждому видео.
— Интеграция TTS-сервисов (ElevenLabs, PlayHT, OpenAI TTS) для создания озвучки.
— Наложение звука, субтитров и фоновой музыки на видео, синхронизация речи и кадра.
— Пакетный рендеринг и экспорт готовых коротких видео в формате 9:16.
— Настройка автоматического постинга на YouTube (через YouTube Data API) с возможностью управления временем публикации, описанием и тегами.
— Оптимизация под массовое производство контента (до тысяч видео в сутки) и обеспечение уникальности каждого ролика.

⸻

🧠 ТРЕБОВАНИЯ
• Опыт в построении автоматизированных мультимедиа-систем, генеративных пайплайнов или комплексных ML-интеграций.
• Владение API облачных медиасервисов: Twelve Labs, Azure Video Indexer, Google Video Intelligence, Veritone, OpusClip и аналогов.
• Знание векторных эмбеддингов, нейросетевого поиска, LLM-интеграций, TTS/ASR-движков (ElevenLabs, PlayHT, Whisper, AssemblyAI).
• Понимание принципов diffusion-моделей, GAN, NeRF, text-to-avatar, ControlNet, работы с ComfyUI, Unreal Engine Metahuman и смежными инструментами.
• Навыки оптимизации пайплайна: ffmpeg, orchestration (Airflow, Temporal, Kubernetes), batch-рендеринг.
• Базовое понимание CGI-продакшна, VFX, compositing, 3D-workflow, знание рендер-механик и принципов temporal coherence.
• Умение мыслить системно, работать с абстракциями, формализовать сложные творческие процессы.
• Уровень самостоятельности — высокий: от анализа идеи до прототипа.

Посмотреть контакты работодателя