О нашем продукте
1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.
Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.
2. Мы делаем приложения на базе Единого хранилища данных.
Обязанности:
- консультирование заказчика с целью выбора инструментария Big Data экосистемы;
- администрирование инструментария Big Data экосистемы;
- оптимизация ETL-процедур обработки информационных массивов;
- доработка/написание CI/CD-пайплайнов;
- участие в развитие Big Data экосистемы;
Требования: - высшее техническое образование;
- релевантный опыт не менее 3 лет;
- знания по проектированию Хранилища данных;
- знания современных тенденций и технологий Big Data (Hadoop, Spark, ClickHouse)
- знания и практические навыки написания SQL-запросов, опыт оптимизации сложных запросов
- опыт работы с одной из аналитических или реляционных СУБД: Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет
- опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных
- навык работы со средствами версионного контроля
- знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
- опыт оценки реализации требований
- отличное знание Python, PyTorch, Transformers (Hugging Faces);
- умение работать с документацией и ее разработка;
- навыки коммуникации с заказчиками, подрядчиками, разработчиками;
- кластеризация: Apache Hadoop (HDP, CDP);
- контейнеризация: Docker Swarm, Kubernetes;
- CI/CD: Ansible, Jenkins, Gitlab;
- технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala;
- IDE: JupyterLab., IntelliJ IDEA, VSCode;
- ETL: Airflow;
- языки программирования: Python, Scala.
Условия: - гибридный режим работы (50% - удаленный формат)
- релокационный пакет.