Senior Database Reliability Engineer в команду DBaaS [MWS Cloud Platform]

Описание вакансии

MWS Cloud Platform — новая облачная платформа от МТС Web Services, построенная на собственных технологиях виртуализации и надёжной инфраструктуре МТС. Мы управляем всем циклом разработки — от оборудования и дата-центров до кода. Наша цель — создать высокотехнологичное облако для самых требовательных заказчиков, при этом понятное и удобное для разработчиков.

Присоединяйся — у нас амбициозные задачи, сильная инженерная команда и реальная возможность повлиять на архитектуру облака федерального масштаба.

Команда DBaaS отвечает за весь жизненный цикл инфраструктурных сервисов облака, а именно PostgreSQL, Kafka, ClickHouse и Redis. Мы не просто администрируем базы, мы проектируем, разрабатываем и поддерживаем высокодоступные, отказоустойчивые и масштабируемые managed-сервисы, которые работают как часы.

Мы ищем инженера на стыке разработки и эксплуатации — Database Reliability Engineer (DBRE). Вы будете не «админом баз данных», а полноценным инженером, который применяет принципы SRE и Software Engineering.

Наша главная цель — сделать сервисы баз данных максимально надежными, эффективными и автоматизированными. Вы будете погружены в жизненный цикл каждого сервиса: от проектирования архитектуры и написания кода для автоматизации до решения сложных инцидентов и анализа производительности.

Чем предстоит заниматься:

Участвовать в архитектурном дизайне наших managed-сервисов (PostgreSQL, Kafka, ClickHouse, Redis) для обеспечения их отказоустойчивости, масштабируемости и безопасности;
Писать код (в основном на Go/Python) для автоматизации рутинных операций: развертывание кластеров, масштабирование, обновления, бэкапы и аварийное восстановление (Disaster Recovery);
Развивать систему мониторинга, алертинга и логирования для проактивного выявления проблем;
Определять, отслеживать и улучшать ключевые SLO-метрики для наших сервисов;
Участвовать в построении культуры blameless postmortem после инцидентов;
Быть внутренним экспертом по базам данных. Проводить глубокий анализ производительности (performance tuning) сложных рабочих нагрузок, помогать командам-потребителям наших сервисов в решении нетривиальных задач;
Участвовать в ротации on-call duty (дежурств), быть готовым оперативно реагировать на инциденты и работать над их предотвращением в будущем.

Наш стек технологий:

Базы данных: PostgreSQL, Kafka, ClickHouse, Redis.
Языки программирования: Go, Python.
Инфраструктура: Kubernetes, Docker, Terraform.

Что мы ждем от кандидатов:

Опыт работы в роли SRE, DBRE, DevOps-инженера или инженера по базам данных в production-среде;
Уверенное владение одним из языков программирования для автоматизации: Go, Python, Ruby и т.д. (Мы используем Go в осноном Python, но готовы рассматривать кандидатов с сильным бэкграундом в других языках);
Понимание принципов SRE: умение работать с SLO/SLI, Error Budgets;
Опыт работы с системами мониторинга (Prometheus, Grafana) и централизованного логирования;
Знание основ сетей (TCP/IP, DNS) и Linux/Unix-систем;
Опыт работы с инструментами инфраструктуры как код (Terraform);
Способность к самостоятельной работе, умение четко расставлять приоритеты в условиях неопределенности;
Готовность участвовать в ротации дежурств (on-call).

Что мы предлагаем:

Гибридный или полностью удалённый формат работы, с возможностью гибкого начала и окончания рабочего дня;
Участие во внешних IT конференциях;
Полезные курсы и вебинары в корпоративном университете и электронные библиотеки.

А ещё:

ДМС с первого месяца работы, включая стоматологию. А ещё оплачиваем 50% стоимости полиса ДМС для родственников;
Мобильная связь за счёт компании и льготные тарифы для близких;
Подписка на online-кинотеатр KION, сервис МТС Музыка, книжный сервис Строки от МТС, безлимитные мессенджеры и соцсети.

Посмотреть контакты работодателя