MWS Cloud Platform — новая облачная платформа от МТС Web Services, построенная на собственных технологиях виртуализации и надёжной инфраструктуре МТС. Мы управляем всем циклом разработки — от оборудования и дата-центров до кода. Наша цель — создать высокотехнологичное облако для самых требовательных заказчиков, при этом понятное и удобное для разработчиков.
Присоединяйся — у нас амбициозные задачи, сильная инженерная команда и реальная возможность повлиять на архитектуру облака федерального масштаба.
Команда DBaaS отвечает за весь жизненный цикл инфраструктурных сервисов облака, а именно PostgreSQL, Kafka, ClickHouse и Redis. Мы не просто администрируем базы, мы проектируем, разрабатываем и поддерживаем высокодоступные, отказоустойчивые и масштабируемые managed-сервисы, которые работают как часы.
Мы ищем инженера на стыке разработки и эксплуатации — Database Reliability Engineer (DBRE). Вы будете не «админом баз данных», а полноценным инженером, который применяет принципы SRE и Software Engineering.
Наша главная цель — сделать сервисы баз данных максимально надежными, эффективными и автоматизированными. Вы будете погружены в жизненный цикл каждого сервиса: от проектирования архитектуры и написания кода для автоматизации до решения сложных инцидентов и анализа производительности.
Чем предстоит заниматься:
- Участвовать в архитектурном дизайне наших managed-сервисов (PostgreSQL, Kafka, ClickHouse, Redis) для обеспечения их отказоустойчивости, масштабируемости и безопасности;
- Писать код (в основном на Go/Python) для автоматизации рутинных операций: развертывание кластеров, масштабирование, обновления, бэкапы и аварийное восстановление (Disaster Recovery);
- Развивать систему мониторинга, алертинга и логирования для проактивного выявления проблем;
- Определять, отслеживать и улучшать ключевые SLO-метрики для наших сервисов;
- Участвовать в построении культуры blameless postmortem после инцидентов;
- Быть внутренним экспертом по базам данных. Проводить глубокий анализ производительности (performance tuning) сложных рабочих нагрузок, помогать командам-потребителям наших сервисов в решении нетривиальных задач;
- Участвовать в ротации on-call duty (дежурств), быть готовым оперативно реагировать на инциденты и работать над их предотвращением в будущем.
Наш стек технологий:
- Базы данных: PostgreSQL, Kafka, ClickHouse, Redis.
- Языки программирования: Go, Python.
- Инфраструктура: Kubernetes, Docker, Terraform.
Что мы ждем от кандидатов: - Опыт работы в роли SRE, DBRE, DevOps-инженера или инженера по базам данных в production-среде;
- Уверенное владение одним из языков программирования для автоматизации: Go, Python, Ruby и т.д. (Мы используем Go в осноном Python, но готовы рассматривать кандидатов с сильным бэкграундом в других языках);
- Понимание принципов SRE: умение работать с SLO/SLI, Error Budgets;
- Опыт работы с системами мониторинга (Prometheus, Grafana) и централизованного логирования;
- Знание основ сетей (TCP/IP, DNS) и Linux/Unix-систем;
- Опыт работы с инструментами инфраструктуры как код (Terraform);
- Способность к самостоятельной работе, умение четко расставлять приоритеты в условиях неопределенности;
- Готовность участвовать в ротации дежурств (on-call).
Что мы предлагаем:
- Гибридный или полностью удалённый формат работы, с возможностью гибкого начала и окончания рабочего дня;
- Участие во внешних IT конференциях;
- Полезные курсы и вебинары в корпоративном университете и электронные библиотеки.
А ещё:
- ДМС с первого месяца работы, включая стоматологию. А ещё оплачиваем 50% стоимости полиса ДМС для родственников;
- Мобильная связь за счёт компании и льготные тарифы для близких;
- Подписка на online-кинотеатр KION, сервис МТС Музыка, книжный сервис Строки от МТС, безлимитные мессенджеры и соцсети.