Старший Devops инженер, Группа Hadoop ops

Описание вакансии

Большой кластер Hadoop c мульти-ЦОД архитектурой, устойчивый к потере целого ЦОД - собираем и раскатываем сами. YARN-кластер с тысячами Spark-приложений в день.

Мы не сильно обросли legacy, есть возможность определять правила игры, выбирать технологии и подходы.
Есть широкий спектр задач на выбор — от повседневной эксплуатации до творческих rnd и BigData forensics.

Мы адепты концепции Everything as Code: минимум ручных действий, максимум автоматизации. Используем лучшие практики для построения внутренней экосистемы, позволяющей поддерживать множество проектов красиво и эффективно.

Вы будете:

Строить, развивать и эксплуатировать кластера Hadoop (HDFS/Hive, Yarn, Spark, Ranger).
Сопровождать и развивать сервисы вокруг Hadoop (JupyterLab).
Разрабатывать инфраструктурный код для поддерживаемой инфраструктуры (Ansible, Ferrum).
Автоматизировать рутинные задачи, разрабатывать и развивать решения “as a Service”.
Обеспечивать устойчивость инфраструктуры к отказам и катастрофам (HA & DR).
Сотрудничать с командой инженеров Data Science (как последняя линия поддержки, "никто кроме вас").
Траблшутить и мониторить поддерживаемую инфраструктуру и сервисы.
Документировать сервисы.

Нам важно:

Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек) на уровне системного администратора.
Большой опыт эксплуатации/развития/построения кластеров на технологиях из стека Apache Hadoop.
Понимание концепции хранилищ данных и ETL-процессов.
Умение писать и тестировать инфраструктурный код, понимание концепции Infrastructure as Code.
Понимание принципов, опыт построения отказоустойчивых сервисов и эксплуатации высоконагруженных систем.
Навыки CI/CD (используем GitLab).
Умение автоматизировать рутинные задачи, деплоймент сервисов и инфраструктуры, разрабатывать инструментарий и писать под них тесты (мы пишем на Python/Go/Bash).
Опыт работы с технологиями виртуализации (оркестрация как плюс).
Опыт работы с Apache Airflow (написание простых дагов).
Понимание принципов мониторинга и навыки траблшутинга, как системных, так и прикладных компонентов: какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем Prometheus/Grafana).

Будет плюсом: