Мы – команда DWH, которая строит основу для работы с большими данными в дивизионе розничных рисков. Наша зона ответственности — корпоративное хранилище данных, потоковые и пакетные пайплайны, инструменты аналитики и интеграция с продуктами. Мы используем современные технологии (Hadoop, Flink, ClickHouse и др.), чтобы данные были доступны, качественны и могли приносить бизнесу ценность.
Обязанности
- анализ исходных данных в различных системах и форматах для решения бизнес-задач (оценка структуры, качества, полноты и применимости данных)
- загрузка, очистка и трансформация больших объемов данных из различных источников (Hadoop, плоские файлы) в рабочую область (платформы GreenPlum, Hadoop, ClickHouse) с помощью Apache Spark
- мониторинг и оптимизация процессов загрузки, преобразования данных и сборки витрин
- разработка и поддержка пайплайнов потоковой обработки данных на Apache Flink (работа с Kafka)
- развитие ETL/ELT-процессов с помощью инструмента airflow, включая автоматизацию загрузки и трансформации.
Требования
- статус студента бакалавриата/магистратуры на момент трудоустройства
- знание SQL (оконные функции, CTE)
- понимание основных концепций из области Data Warehouse
- понимание основ работы с СУБД
- представление о структурах данных и алгоритмах
- базовые знания языков программирования (Java, Python)
- желание учиться и пробовать новые технологии.
Будет плюсом
- опыт участия в проектах/хакатонах, связанных с данными
- знакомство с системами работы с данными GreenPlum, ClickHouse, Hive
- первые шаги в разработке на Java/Kotlin, Python
- опыт написания простых ETL скриптов.
Условия
- комфортный современный офис рядом с м.Волгоградский проспект
- гибкий график и возможность совмещать с учебой: от 30 до 40 часов в неделю
- возможность заниматься спортом в одном из спортзалов банка
- бесплатную подписку СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.