Мы в поисках специалиста, который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.
Будущие задачи:
Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)
Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.
Обработка аудиоданных: препроцессинг, очистка, аугментации
Оптимизация latency, обеспечение real-time inference
Интеграция моделей в сервисы (API, gRPC, FastAPI)
Мониторинг качества (WER, MOS и др.), A/B тестирование
Обучение/Дообучение Моделей на данных
Требования:
Опыт работы с задачами ASR и/или TTS в ML-продуктах
Уверенное знание Python, PyTorch / TensorFlow
Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)
Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.
Навыки оптимизации inference (ONNX, quantization, streaming)
Понимание задач real-time распознавания
Опыт от 2-3 года в ML или DS проектах с голосом
Будет плюсом:
Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)
Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)
Работа с облачными STT/TTS API и кастомизация поверх них
Национальный межбанковский процессинговый центр
Ташкент
Не указана
ГУ O‘ZBEKISTON RESPUBLIKASI MAKTABGACHA VA MAKTAB TA'LIMI VAZIRLIGI
Ташкент
от 3000 USD
РПИ УзИнжиниринг
Ташкент
от 10000000 UZS