SRE engineer (с функциями DE)

WILDBERRIES

SRE engineer (с функциями DE)

Описание вакансии

Мы - Wildberries, один из самых крупных и известных маркетплейсов, который создают более 4-х тысяч IT-специалистов. Мы создаем сервисы для себя - это автоматизация процессов логистики/складов/ПВЗ, эко-система платежных продуктов и многое другое.

В связи с расширением команды инфраструктуры мы уже запустили и продолжаем развивать корпоративное аналитическое хранилище и ищем специалиста с сильным бэкграундом в Data Engineering, который сможет одновременно заботиться о надёжности и производительности стековой инфраструктуры.

Что мы уже построили и развиваем:
Hadoop Vanilla кластер (последняя версия) с компонентами:
HDFS, YARN, Hive, Spark (Pyspark), Trino, Airflow, JupyterHub, FreeIPA KDC, Knox, Ranger, Hue, Data Catalog & BI: OpenMetadata, Superset.
Деплоймент: часть сервисов на «железе», часть в Kubernetes.
Единая аутентификация: интеграция с Keycloak.

Предстоящие задачи:

  • Проектирование ETL/ELT-конвейеров.
  • Разработка, оптимизация и автоматизация пайплайнов на Spark и Python.
  • Интеграция потоковых (Kafka) и пакетных источников данных.
  • Моделирование и подготовка данных.
  • Проектирование витрин по способам хранения данных (шардирование, партиционирование), оптимизация таблиц для аналитики в Hive/Trino/ClickHouse.
  • Работа с dbt-моделями для управления версиями и тестирования SQL трансформаций.
  • Инфраструктурная поддержка.
  • Автоматизация развёртывания и конфигурации компонентов через Ansible / Helm.
  • Мониторинг и алертинг (Prometheus/Grafana) ключевых метрик ETL-задач и ресурсов кластера.
  • Обеспечение отказоустойчивости, безопасности и резервного копирования данных.
  • Траблшутинг и оптимизация.
  • Выявление и устранение узких мест в производительности Spark-джобов и SQL запросов.
  • Настройка партиционирования, шардирования, индексов для MPP-СУБД.

Мы ожидаем, что у вас есть:

  • От 2 лет опыта работы с Linux-серверами.
  • От 3 лет опыта разработки и поддержки ETL/ELT-конвейеров (Spark, Python).
  • Опыт эксплуатации Hadoop-кластера (HDFS/YARN/Hive) и оркестрации в Airflow.
  • Знание Kafka-коннекторов и принципов стриминговой обработки.
  • Навыки SQL-оптимизации и работы с MPP-СУБД (ClickHouse, Greenplum).
  • Опыт автоматизации конфигурации и деплоя (Ansible, Helm).

Будет плюсом:

  • Практика работы с dbt и CI/CD для data-пайплайнов.
  • Опыт контейнеризации сервисов в Kubernetes и переноса с «железа».
  • Знание OpenMetadata, Superset, Keycloak, Ranger.

Почему вам будет интересно:

  • Фокус на Data Engineering: вы создаёте и развиваете сквозные data-pipeline’ы, а не только админите кластеры.
  • Свобода архитектурных решений: примите участие в развитии современного стека, выбирая оптимальные инструменты и методологии.
  • Рост и обмен опытом: менторство коллег, внутренние воркшопы, участие в профильных конференция.

Мы предлагаем:

  • Гибкий график и удалённый или гибридный формат (офисы в Москве и Санкт-Петербурге).
  • Оформление по ТК РФ в аккредитованную IT-компанию с первого дня, конкурентная компенсация и соцпакет (ДМС, фитнес, обучение).
  • Возможность горизонтального и вертикального роста, участие в инновационных проектах.

Если вы готовы сочетать глубокий Data Engineering с поддержкой и оптимизацией BigData-инфраструктуры — будем рады видеть вас в команде!

Посмотреть контакты работодателя

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию