Астана, улица Алматы, 7
Аналитик данных в команду Data. Задача — вести подготовку товарных категорий по чековым данным: выделение категорий через регулярные выражения, чистка, контроль качества, сбор витрин и базовой статистики. Работа удалённая
Выделять товарные категории из массива чеков по неструктурированным названиям товаров через регулярные выражения на казахском, русском и английском языках.
Проводить итеративную чистку данных, снижать долю мусора и не терять важные строки.
Писать SQL-запросы в Doris, собирать итоговые таблицы в хранилище, готовить SQL-скрипты и Jupyter-ноутбуки для проверки качества и расчёта метрик.
При необходимости упаковывать расчёты в Airflow DAG или поддерживать существующие DAG.
Собирать базовые отчёты по категории: динамика, доли, распределения, контрольные срезы, краткие выводы.
Вы самостоятельно собираете новую категорию за 2 рабочих дня: правило выделения, контроль качества, итоговая таблица в хранилище и ноутбук с проверками.
Уверенный SQL и опыт работы с большими данными. Умение работать с регулярными выражениями, писать сложные запросы и проверки.
Python для анализа данных: обработка таблиц, проверки качества, работа с текстом, построение графиков.
Практический опыт построения правил выделения сущностей из текста или неструктурированных полей: категории, бренды, словари, правила классификации.
Аккуратность и внимательность к деталям при работе с данными. Умение доводить до результата без потери качества.
Самостоятельность. Умение разбирать задачу, предлагать план, фиксировать критерии качества и доводить до готового результата.
Готовность работать с неопределённостью и быстро делать итерации по данным.
Русский язык. Казахский и английский языки на уровне уверенного чтения и понимания типовых слов в товарных названиях.
Опыт с чековыми данными, ритейлом, товарными категориями, корзинами, ценами, промо.
Опыт с Airflow. Умение писать DAG, разбираться с логами и отладкой.
Опыт работы с Doris или близкими по смыслу БД.
Опыт работы с Power BI.
Привычка документировать правила выделения категорий и поддерживать их в виде понятного справочника.
Опыт коротких презентаций результатов.
Если не нравится рутина и скрупулёзная работа с текстом и данными.
Если сложно принимать правки и менять решение после проверки на данных.
Если часто теряются сроки или задача уходит в бесконечную шлифовку.
Если не хватает внимательности и дотошности при разборе пограничных случаев.
Работа удалённая, стандартный рабочий день, часовой пояс Астана. Процесс найма: тестовое задание, созвон с техническим собеседованием.
В этой роли критически важна внимательность к деталям и работа с регулярными выражениями. Чтобы перейти к следующим шагам, пожалуйста, заполните сопроводительное при отклике, в нем кратко расскажите о вашем опыте написания сложных регулярных выражений: для какой задачи вы их применяли и с какими трудностями столкнулись при обработке русского/английского/казахского текста. Или ваш самый интересный или сложный кейс по обработке неструктурированных текстовых данных (парсинг, очистка, классификация). Какую задачу решали, какие инструменты/Regex использовали и какого результата добились?
ДАКС-КАЗАХСТАН
Астана
от 400000 KZT
Astana Mall Trading,ТОО
Астана
от 400000 KZT
АНО Институт Центральной Азии
Астана
от 500000 KZT