Быть экспертом по направлению стабильности в продуктовой команде: консультировать команду по надёжности и стабильности, анализировать текущие процессы, предлагать новые подходы и улучшения.
Внедрять целевые уровни обслуживания — SLI, SLO, Error budget, а также поддерживать их в актуальном состоянии.
Оперативно выявлять проблемы с помощью практик load testing & chaos engineering.
Обеспечивать наблюдаемость сервисов, используя корпоративные системы алертинга, мониторинга и трассировки.
Управлять дашбордами и алертами, следить за здоровьем сервисов, нагрузкой и соответствием контрактам доступности.
Реагировать на аварии в сервисах, анализировать их и проводить внутренние разборы инцидентов. Нам важна готовность принимать участие в ротируемых дежурствах.
Совершенствовать процессы CI/CD с фокусом на частые, небольшие и безопасные релизы.
Разбираться в архитектуре сервисов и инфраструктуре, давать рекомендации по повышению надёжности, составлять ранбуки и DRP.
Принимать активное участие в развитии глобальных SRE-практик и инструментов компании.
Наш стек
У нас микросервисная архитектура. Команды работают с последними технологиями, а также свободны в принятии технических и продуктовых решений.
Заботимся о качестве кода: проводим ревью, всё покрываем тестами и даём обратную связь.
Используем Scrum как гибкую методологию в разработке. Пользуемся OKR для формирования целей, но не ограничиваемся ими.
Делаем много проектов на Python — FastAPI, asyncio, а также на Java — Spring Boot.
Храним данные в PostgreSQL.
Работаем с Kubernetes, Consul, Vault.
Много асинхронного взаимодействия на RabbitMQ.
Мониторинг на Prometheus, ELK, Grafana.
Ты подойдёшь, если
Есть опыт работы SRE-инженером или инженером по доступности и надёжности от 3 лет.
Разбираешься в SRE-практиках, понимаешь что такое SLA, SLO, SLI, MTTR и зачем они нужны.
Есть опыт скоординированного решения инцидентов в продакшене.
Понимаешь, как строить мониторинг и систему алертинга, а также имеешь опыт работы с инструментами вроде Prometheus или Grafana.
Знаешь, как настроить CI/CD-процессы с использованием TeamCity или GitLab.
Умеешь создавать надёжные и масштабируемые системы. Знаешь основные паттерны дизайна систем на отказ, а также алгоритмы шардирования, кэширования и балансировки.
Понимаешь работу сетевого стека: TCP/IP, DNS, HTTPS.
Есть опыт эксплуатации и настройки Kubernetes, Docker, NGINX, Consul, Redis, RabbitMQ, MySQL или PostgreSQL.
Знаешь любой язык разработки с применением в продакшене: Go, Python, Java.
Что ждёт тебя в Точке
Официальная зарплата от 460 000 ₽. Точная сумма зависит от твоих навыков и ожиданий — обсудим их на собеседовании. Это сумма до вычета налогов. Помни, что с 2025 года ставка НДФЛ меняется в зависимости от суммарного дохода за год.
Пятидневная рабочая неделя с гибким началом и окончанием дня.
Удалёнка или любой офис Точки в городах присутствия. Наши офисы — это продуманные опенспейсы, где есть индивидуальные места для работы, зоны отдыха и кухни с кофе и перекусами. Ты можешь самостоятельно выбрать, где работать — ходить в офис необязательно.
Понятная система развития и роста по грейдам.
Возможность работать по-своему. Никто не будет навязывать свои методы, трекать время и контролировать каждое действие. Делаем так, чтобы каждый был услышан и мог влиять.
Бесплатное обучение: ты сможешь ездить на IT-конференции, митапы и хакатоны и проходить курсы за счёт компании. А ещё пользоваться нашей библиотекой и платформой с онлайн-курсами.
Комфорт не только в работе, но и в жизни. После испытательного срока: ДМС со стоматологией, психолог, чекапы здоровья и 4 дополнительных дэй-оффа в год.
Онлайн-кабинет сотрудника наподобие госуслуг, где ты можешь заказать справку, поставить отпуск или отгул, заказать технику или посмотреть выплаты.
Активная корпоративная жизнь: мы проводим спортивные марафоны, гастрономические вечера, музыкальные лайвы и многое другое.