На этой позиции тебе предстоит:
- Участие в устранении инцидентов и решение проблем (эксплуатация);
- Оперативное реагирование на сообщения консоли мониторинга;
- Участие в эксплуатации общесистемных сервисов, в том числе во внедрении и модернизации;
- Выполнение заявок, поступающих от пользователей (анализ и решение проблем), согласно установленному SLA;
- Планирование и выполнение работ по запросам на изменение, а также регламентных работ направленных на предотвращение угроз деградации/прерывания сервисов;
- Участие в проектах, внедрение, согласование и последующая актуализация эксплуатационной документации;
- Стандартизация решений, подготовка инструкций и написание скриптов для своей команды
Что мы ждем от кандидата:
- Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
- Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
- Понимание, как работают сети и умение диагностировать проблемы в их работе;
- Практический опыт IaаC (Terraform/Ansible) и понимание принципов;
- Практический опыт построения CI/CD (Gitlab CI, Argo CD);
- Умение писать автоматизацию и скрипты на Python/Go;
- Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
- Понимание, что такое SLO и SLI и умение применять их на практике;
- Уверенный опыт в SRE/Platform/DevOps роли.
- Готовность работать в офисе в сменном графике (2/2/2 с дневными и ночными сменами)