Python (библиотеки ML pandas, sklearn, xgboost, lightgbm)
Oracle/PostgreSQL
BitBucket
Apache Airflow
TeamCity
Apache Superset
Sonatype Nexus
Hadoop, Click house
Чем предстоит заниматься:
Разработка моделей машинного обучения и построение пайплайнов на данных Банка для решения задач средствами методов NLP/LLM, OCR/IDP, RecSys/RL. Предметная область: предсказательные модели, сегментирование по клиентам, модели по борьбе с мошенничеством, технологии обработки неструктурированных документов и массивов текстовых данных и т.п.;
Генерирование продуктовых гипотез по процессам функциональных подразделений Банка (Sales, Operations, Collection, Finance и т.д.);
Постановка экспериментов на их основе в интересах бизнес-заказчиков;
Проведение тестирования и оценки качества моделей с участием бизнес-заказчиков;
Развертывание и настройка моделей машинного обучения на промышленной инфраструктуре банка;
Ускорение работы моделей с применением современных методов оптимизации и архитектур;
Взаимодействие с DevOps и MLOps для вывода разработки в прод.;
Ведение документации по проектам и разработанным моделям машинного обучения.
Что мы ждём:
Знание принципов работы современных алгоритмов машинного обучения;
Наличие успешно завершенных и выведенных в Production проектов;
Компетенции в ML, NLP/LLM и/или CV/OCR, интерес к рекомендательным системам как плюс;
Знание SQL на уровне оконных функций;
Знание принципов работы отдельных классов моделей машинного обучения;
Знание метрик оценки качества моделей машинного обучения;
Умение проводить отбор признаков при обучении модели;
Знание методологии и принципов разработки моделей, а также стека применяемых технологий и подходов к сбору, обработке, хранению и управлению данными;
Приветствуется опыт в сфере научно исследовательской работы.