Кого мы ищем:
Мы команда, которая строит надёжную и масштабируемую платформу данных, которая становится основой для аналитики, ML/AI и бизнес-экспериментов. Нас выбирают команды, которым нужно быстро проверять аналитические гипотезы, обучать модели в Kubeflow, обрабатывать данные в Spark и хранить их в Hadoop и Greenplum.
Мы ищем инженера, который будет разворачивать и сопровождать инфраструктуру для платформы данных, обеспечивать стабильную работу ключевых сервисов (Kubeflow, Hadoop и др.), автоматизировать процессы CI/CD и мониторинга, а также участвовать в развитии процессов внутри команды.
Наш стек:
- Runtime: Kubernetes (self-hosted), Airflow, Spark, Hadoop (HDFS, YARN, Spark, Hive), Kubeflow
- БД и очереди: HDFS, PotgreSQL, GreenPlum, Clickhouse
- Управление инфраструктурой: Ansible, ArgoCD
- CICD: Bitbucket, Teamcity, Nexus
- Мониторинг: Grafana/Zabbix
Чем предстоит заниматься:
- Разворачивать и настраивать инфраструктуру для платформы данных на OpenStack, Kubernetes и bare-metal серверах;
- Поддерживать и обеспечивать высокую доступность и стабильную работу data-сервисов: Kubeflow (Jupyter + MLflow), Spark, Hadoop;
- Автоматизировать процессы развертывания, конфигурации и обслуживания компонентов с использованием Ansible, Terraform, Helm;
- Настраивать и развивать систему мониторинга и логирования с помощью Zabbix, Prometheus, Grafana, ELK;
- Участвовать в построении и доработке CI/CD процессов на базе TeamCity и ArgoCD;
- Внедрять best practices по инфраструктуре, контейнеризации и безопасности;
- Активно взаимодействовать с командами разработки, платформ и аналитики, участвовать в организации командной работы.
Что мы ожидаем от кандидата:
- Администрирование OC Linux (RHEL, CentOS) от 2-х лет;
- Опыт использования скриптов для автоматизации (Python/Bash);
- Построение CI/CD pipelines;
- Эксплуатация систем мониторинга (Prometeus, Grafana, Zabbix, ELK);
- Работа с Docker, Kubernetes (включая Helm-чарты, StatefulSets, Volumes и пр.);
- Понимание принципов работы Apache Airflow (в т.ч. кастомные плагины, sensors), Spark, Hadoop, Kubeflow (включая JupyterHub, MLflow).