Астана, проспект Мангилик Ел, 55/13
Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.
В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.
В рамках OpenAI - Kazakh Language Data Program мы строим масштабные текстовые датасеты на казахском языке для обучения и оценки LLM и NLP-моделей.
Мы ищем Text Data Manager / NLP Data Specialist, в ОО «Международное общество «ҚАЗАҚ ТІЛІ» который возьмёт на себя ответственность за качество, структуру и воспроизводимость текстовых данных.
Что тебе предстоит делать:
Проектировать и поддерживать пайплайны сбора и обработки крупных текстовых корпусов на казахском языке
Работать с разнородными источниками данных:
public domain (книги, фольклор, СМИ);
академические и государственные публикации;
лицензированные текстовые платформы
Проектировать и контролировать процессы очистки текстов:
нормализация;
удаление дубликатов;
очистка шума и технических элементов
Вести учёт токенов, метаданных, доменных и тематических тегов
Следить за сбалансированностью данных по жанрам и тематикам
Участвовать в формировании и поддержке текстовых наборов для оценки качества (benchmark, evaluation datasets)
Анализировать данные и участвовать в регулярном обновлении датасетов
Мы ищем человека, у которого есть:
Свободное владение казахским и английским языками
Понимание базовых принципов:
машинного обучения;
работы с данными для LLM и NLP
Опыт работы с большими текстовыми массивами, корпусами данных или пайплайнами обработки
Понимание вопросов лицензирования, public domain и управления данными
Навыки работы с JSON:
проектирование схем (тексты, метаданные, лицензии, домены);
очистка, валидация и трансформация данных;
поиск и исправление ошибок в структуре данных
Внимательность к деталям, системное мышление, ответственность
Будет плюсом:
Опыт в лингвистических, исследовательских или data-проектах
Опыт работы с текстовой аналитикой или языковыми технологиями
Что ты получаешь, присоединившись к нам:
Достойная зарплата — обсудим на встрече, индивидуально и честно.
Работу над значимым проектом по развитию казахского языка и технологий
Профессиональное развитие в сфере данных и языковых технологий
Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.
Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.
Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.
Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.
Как мы работаем:
В офисе в Астане (Expo, Мангилик ел 55/13)
Полный рабочий день, 5/2 с 9:00 до 18:00
Официальный найм с первого дня, испытательный срок — 3 месяца.
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Bilim Land (Bilim Group)
Астана
до 500000 KZT
Банк Развития Казахстана
Астана
до 500000 KZT
Иностранное учебное заведение CARDIFF UNIVERSITY KAZAKHSTAN
Астана
до 500000 KZT
Be Global Study Abroad
Астана
до 600000 KZT
Банк Развития Казахстана
Астана
до 600000 KZT
Астана
до 800000 KZT
Аграрная кредитная корпорация
Астана
до 800000 KZT