Мы - Wildberries, один из самых крупных и известных маркетплейсов, который создают более 4-х тысяч IT-специалистов. Мы создаем сервисы для себя - это автоматизация процессов логистики/складов/ПВЗ, эко-система платежных продуктов и многое другое.
В связи с расширением команды инфраструктуры мы уже запустили и продолжаем развивать корпоративное аналитическое хранилище и ищем специалиста с сильным бэкграундом в Data Engineering, который сможет одновременно заботиться о надёжности и производительности стековой инфраструктуры.
Что мы уже построили и развиваем:
Hadoop Vanilla кластер (последняя версия) с компонентами:
HDFS, YARN, Hive, Spark (Pyspark), Trino, Airflow, JupyterHub, FreeIPA KDC, Knox, Ranger, Hue, Data Catalog & BI: OpenMetadata, Superset.
Деплоймент: часть сервисов на «железе», часть в Kubernetes.
Единая аутентификация: интеграция с Keycloak.
Предстоящие задачи:
- Проектирование ETL/ELT-конвейеров.
- Разработка, оптимизация и автоматизация пайплайнов на Spark и Python.
- Интеграция потоковых (Kafka) и пакетных источников данных.
- Моделирование и подготовка данных.
- Проектирование витрин по способам хранения данных (шардирование, партиционирование), оптимизация таблиц для аналитики в Hive/Trino/ClickHouse.
- Работа с dbt-моделями для управления версиями и тестирования SQL трансформаций.
- Инфраструктурная поддержка.
- Автоматизация развёртывания и конфигурации компонентов через Ansible / Helm.
- Мониторинг и алертинг (Prometheus/Grafana) ключевых метрик ETL-задач и ресурсов кластера.
- Обеспечение отказоустойчивости, безопасности и резервного копирования данных.
- Траблшутинг и оптимизация.
- Выявление и устранение узких мест в производительности Spark-джобов и SQL запросов.
- Настройка партиционирования, шардирования, индексов для MPP-СУБД.
Мы ожидаем, что у вас есть:
- От 2 лет опыта работы с Linux-серверами.
- От 3 лет опыта разработки и поддержки ETL/ELT-конвейеров (Spark, Python).
- Опыт эксплуатации Hadoop-кластера (HDFS/YARN/Hive) и оркестрации в Airflow.
- Знание Kafka-коннекторов и принципов стриминговой обработки.
- Навыки SQL-оптимизации и работы с MPP-СУБД (ClickHouse, Greenplum).
- Опыт автоматизации конфигурации и деплоя (Ansible, Helm).
Будет плюсом:
- Практика работы с dbt и CI/CD для data-пайплайнов.
- Опыт контейнеризации сервисов в Kubernetes и переноса с «железа».
- Знание OpenMetadata, Superset, Keycloak, Ranger.
Почему вам будет интересно:
- Фокус на Data Engineering: вы создаёте и развиваете сквозные data-pipeline’ы, а не только админите кластеры.
- Свобода архитектурных решений: примите участие в развитии современного стека, выбирая оптимальные инструменты и методологии.
- Рост и обмен опытом: менторство коллег, внутренние воркшопы, участие в профильных конференция.
Мы предлагаем:
- Гибкий график и удалённый или гибридный формат (офисы в Москве и Санкт-Петербурге).
- Оформление по ТК РФ в аккредитованную IT-компанию с первого дня, конкурентная компенсация и соцпакет (ДМС, фитнес, обучение).
- Возможность горизонтального и вертикального роста, участие в инновационных проектах.
Если вы готовы сочетать глубокий Data Engineering с поддержкой и оптимизацией BigData-инфраструктуры — будем рады видеть вас в команде!