Астана, проспект Мангилик Ел, 55/13
Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.
В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.
В рамках OpenAI - Kazakh Language Data Program мы работаем с речевыми данными на казахском языке для обучения и оценки ASR и мультимодальных моделей.
Мы ищем Speech / ASR Data Manager, который будет отвечать за полный цикл работы с аудиоданными: от сбора и транскрибации до подготовки benchmark-наборов и анализа качества.
Что тебе предстоит делать:
Проектировать и поддерживать пайплайны сбора и обработки аудиоданных на казахском языке
Организовывать и контролировать процессы транскрибации: нормализация текстов, контроль качества (QA/QC), проверка соответствия аудио и транскриптов
Выявлять и удалять: низкокачественные аудиозаписи, шумные, обрезанные или некорректно выровненные данные, ошибочные транскрипты
Обеспечивать разнообразие спикеров: пол, возраст, регионы, диалектные особенности
Готовить и поддерживать JSON / JSONL-манифесты: аудиофайлы, транскрипты, метаданные, версии датасетов
Формировать и поддерживать ASR benchmark-наборы (dev / test splits)
Анализировать результаты оценки моделей: WER / CER, качество по доменам и группам спикеров, Участвовать в итерациях улучшения данных совместно с ML-командой
Мы ищем человека, у которого есть:
Свободное владение казахским языком (обязательно) и английским языком (рабочий уровень)
Понимание принципов: ASR-систем, машинного обучения, требований к данным для обучения и оценки моделей
Практический опыт работы с: речевыми датасетами, процессами транскрибации и QA, лингвистическими или speech-проектами
Знание аудиоформатов и структур датасетов
Опыт работы с JSON / JSONL: подготовка манифестов, валидация и очистка данных, проверка alignment между аудио и текстом
Опыт подготовки benchmark-ready ASR датасетов
Будет плюсом:
Python для обработки аудио и метаданных
Опыт работы с ASR-инструментами и библиотеками
Понимание пайплайнов обучения speech-моделей
Опыт анализа ошибок ASR
Что ты получаешь, присоединившись к нам:
Достойная зарплата — обсудим на встрече, индивидуально и честно.
Работу над значимым проектом по развитию казахского языка и технологий
Профессиональное развитие в сфере данных и языковых технологий
Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.
Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.
Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.
Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.
Как мы работаем:
В офисе в Астане (Expo, Мангилик ел 55/13)
Полный рабочий день, 5/2 с 9:00 до 18:00
Официальный найм с первого дня, испытательный срок — 3 месяца.
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Банк Развития Казахстана
Астана
до 500000 KZT
Be Global Study Abroad
Астана
до 600000 KZT
MAXWELL DISTRIBUTION
Астана
до 500000 KZT
Банк Развития Казахстана
Астана
до 500000 KZT
Астана
до 800000 KZT
Аграрная кредитная корпорация
Астана
до 600000 KZT