Наш продукт, VK Data Platform, — универсальная платформа для end‑to‑end работы с большими объёмами данных и машинным обучением. В его основе лежат собственные разработки и лучшие практики работы с данными, проверенные на масштабных проектах с многомиллионной аудиторией.
Мы создаём VK Data Platform как инструмент, который поможет решить инфраструктурные задачи:
- Сократить совокупную стоимость хранения и обработки данных
- Эффективно утилизировать аппаратное обеспечение
- Повысить качество и достоверность данных
- Централизовать инструменты управления инфраструктурой данных
- Унифицировать технологический стек компании и упростить поддержку и обновление программного обеспечения
- И направить усилия Data Office на поиск инсайтов и решение бизнес-задач
У нас многослойная команда: аналитики, DevOps, проектное управление и всё-всё от пресейла до поддержки.
Задачи
- Разрабатывать и сопровождать ETL-пайплайны и типовые интеграционные решений в data platform
- Проектировать, реализовывать и оптимизировать сложные ETL-процессы (в том числе разработки DAG для автоматизации)
- Реализовывать обработку потоковых данных
- Разрабатывать решения с различными системами хранения и системами распределённых SQL-движков
- Внедрять подходы и процессы управления данными
- Участвовать в подготовке пилотов и внедрении VK DataPlatform
Требования
Опыт в обработке данных:
- Работа в NiFi/AirFlow
- Проектирование пайплайнов обработки данных
- Проектирование пайплайнов с проверкой качества данных
- Опыт и понимание работы с Spark
- Программирование на Java/Scala/Python
- Работа с Kafka/RabbitMQ
Опыт в организации хранения данных:
- PostgreSQL, ClickHouse — от трёх лет
- S3/Hadoop
- Построение дата-архитектуры (DWH,OLAP,ELT/ETL/Data Lake/LakeHouse)
- Знание SQL
- Работы с NoSQL базами данных
- Опыт и понимание работы распределённых SQL-движков trino/dbt
Управление данными:
- Понимание приципов Data Governance
- Опыт работы с Data Catalog OpenMetadata/DataHub/Atlas
Будет плюсом
- Знание DataOps-практик
- Опыт работы с оркестрацией в Kubernetes, BI-инструментами, Data Mesh / Data Fabric
- Понимание интеграции ML-моделей в ETL-процессы