Наша исследовательская команда занимается разработкой и исследованием новейших решений в области речевых технологий с применением LLM-подходов. Мы работаем над прорывными проектами в сфере генерации речи, кодировщиков аудио и мультимодальных языковых моделей.
Обязанности
- Мультимодальные эксперименты с GigaChat, DeepSeek, QWEN
- Fullduplex е2е подход в мультимодальных задачах
- Синхронный перевод речи
- Генерация произвольного голоса, инструктивное управление генерацией
- Сбор и подготовка сложных датасетов и бенчмарков для аудио задач особенности позиции
- Тесная синхронизация исследований с продуктовыми командами
- Возможность увидеть свои наработки в продакшене
- Возможность публиковать результаты исследований
- Работа с передовыми технологиями в области ИИ и речи
Требования
- Глубокие знания в deep learning и обработке естественного языка
- Практический опыт в области обработки речи или аудио (желательно)
- Знакомство с современными LLM архитектурами и подходами, а также с мультимодальными архитектурами
- Хорошее понимание принципов работы речевых моделей
Условия
- Достойная заработная плата + бонус
- Поддержка в публикации научных статей
- Сильная команда и передовые проекты Баланс между исследованиями и практическим применением
- Удаленный формат работы