Большой кластер Hadoop c мульти-ЦОД архитектурой, устойчивый к потере целого ЦОД - собираем и раскатываем сами. YARN-кластер с тысячами Spark-приложений в день.
Мы не сильно обросли legacy, есть возможность определять правила игры, выбирать технологии и подходы.
Есть широкий спектр задач на выбор — от повседневной эксплуатации до творческих rnd и BigData forensics.
Мы адепты концепции Everything as Code: минимум ручных действий, максимум автоматизации. Используем лучшие практики для построения внутренней экосистемы, позволяющей поддерживать множество проектов красиво и эффективно.
Вы будете:
- Строить, развивать и эксплуатировать кластера Hadoop (HDFS/Hive, Yarn, Spark, Ranger).
- Сопровождать и развивать сервисы вокруг Hadoop (JupyterLab).
- Разрабатывать инфраструктурный код для поддерживаемой инфраструктуры (Ansible, Ferrum).
- Автоматизировать рутинные задачи, разрабатывать и развивать решения “as a Service”.
- Обеспечивать устойчивость инфраструктуры к отказам и катастрофам (HA & DR).
- Сотрудничать с командой инженеров Data Science (как последняя линия поддержки, "никто кроме вас").
- Траблшутить и мониторить поддерживаемую инфраструктуру и сервисы.
- Документировать сервисы.
Нам важно:
- Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек) на уровне системного администратора.
- Большой опыт эксплуатации/развития/построения кластеров на технологиях из стека Apache Hadoop.
- Понимание концепции хранилищ данных и ETL-процессов.
- Умение писать и тестировать инфраструктурный код, понимание концепции Infrastructure as Code.
- Понимание принципов, опыт построения отказоустойчивых сервисов и эксплуатации высоконагруженных систем.
- Навыки CI/CD (используем GitLab).
- Умение автоматизировать рутинные задачи, деплоймент сервисов и инфраструктуры, разрабатывать инструментарий и писать под них тесты (мы пишем на Python/Go/Bash).
- Опыт работы с технологиями виртуализации (оркестрация как плюс).
- Опыт работы с Apache Airflow (написание простых дагов).
- Понимание принципов мониторинга и навыки траблшутинга, как системных, так и прикладных компонентов: какие метрики собирать, куда смотреть при проблемах, какие дашборды для этого нужны (мы используем Prometheus/Grafana).
Будет плюсом:
- Опыт работы с Clickhouse, Postgres, Trino, знание SQL.
- Опыт траблшутинга Spark-приложений, умение читать Java-код.