Создаём единую коммуникационную платформу, которая станет универсальным решением для всех платформ группы по общению пользователей.
Задачи
- Обеспечивать бесперебойную работу, развивать мониторинг и алертинг
- Участвовать в инцидент-менеджменте
- Автоматизировать провижининг и другие рутинные действия
- Переносить существующие продукты и сервисы на CDN
- Взаимодействовать с командой разработчиков и с инженерами One Cloud
Требования
- Опыт работы системным администратором / SRE-инженером от трёх лет
- Знание PromQL (VictoriaMetrics/Prometheus), Grafana
- Уверенные знания сети и стека TCP/IP, DNS, HTTP
- Знание Docker
- Умение строить информативные дашборды
- Опыт построения технического SLA для сервисов (выбор SLI и выставление оптимальных SLO)
- Понимание, как работают высоконагруженные сервисы, знание принципов их масштабирования и отказоустойчивости
- Прикладные навыки автоматизации на Bash/Python/Go