Алматы, проспект Назарбаева, 226
Метро: Абая• Парсинг и извлечение данных из внешних источников (веб-сайты, API).
• Поддержка и развитие архитектуры хранилищ данных и Data Lake;
• Работа с большими объемами данных в распределенной среде (Hadoop-экосистема).
• Разработка и поддержка витрин в бд – сбор, агрегация;
• Автоматизация процессов обработки данных с использованием Python.
Требования:• Уверенное знание Python, включая библиотеки для парсинга (например, BeautifulSoup, Scrapy, requests).
• Знание SQL и опыт работы с реляционными/нереляционными базами данных.
• Опыт работы в Linux-среде, написание shell-скриптов.
• Умение работать с Docker для контейнеризации приложений.
• Понимание архитектуры хранилищ данных, включая Data Lake и компоненты Hadoop-экосистемы.
• Понимание принципов построения и сопровождения ETL-процессов.
• Умение работать с системой контроля версий Git.
• Навыки работы с системами оркестрации (Airflow).
• Будет плюсом знание и опыт работы с облачными сервисами AWS (например, S3, EC2, SQS, Lambda и др.).