Site Reliability Engineer/SRE во внутреннее облако (RTC)

Яндекс

Site Reliability Engineer/SRE во внутреннее облако (RTC)

Описание вакансии

Мы развиваем внутреннее инфраструктурное контейнерное облако, в котором расположены сервисы, создаваемые тысячами разработчиков Яндекса. Всё ради того, чтобы запуск и эксплуатация сервиса занимали минимум времени, а стоимость ресурсов облака была минимальной.

В нашу команду ищем опытного инженера. Вы будете строить гибридные облака и обеспечивать безопасную эксплуатацию кластера.

Какие задачи вас ждут:

Разворачивать и развивать bare-metal-кластеры Kubernetes
Вам предстоит проектировать и внедрять решения для развёртывания и эксплуатации крупных bare-metal-кластеров Kubernetes в выделенных дата-центрах, исследовать и адаптировать инфраструктурные сервисы для работы в гибридных средах — как на физических серверах, так и в облаках. Предстоит участвовать в развёртывании критически важных систем в Kubernetes, например YT — платформы для распределённых вычислений, при этом обеспечивать высокую производительность и отказоустойчивость. Работать с low-level-компонентами: Container Runtime (Porto), CNI, CSI, node agents, системными демонами, а также с настройкой ядра Linux и аппаратной спецификой серверов, разрабатывать собственные инструменты и контроллеры для Kubernetes, автоматизировать рутинные операции.

Развивать и совершенствовать автоматизацию обновлений облака
Вы будете поддерживать и модернизировать hostmanager — ключевой сервис для управления жизненным циклом хостов в облаке, автоматизировать обновления ОС, ядра, системных компонентов и Kubernetes-нод с минимальным влиянием на работающие сервисы, разрабатывать механизмы безопасного канареечного развёртывания и отката обновлений, интегрировать лучшие практики CI/CD и Infrastructure as Code в процессы эксплуатации инфраструктуры.

Наблюдать и управлять парком из 100+ тысяч хостов
Нужно обеспечивать высокую доступность и производительность всей инфраструктуры, анализировать метрики, логи и события для выявления и предотвращения инцидентов, участвовать в проектировании систем мониторинга, алертинга и диагностики на уровне хостов и кластеров, работать с распределёнными системами, оптимизировать использование ресурсов и снижать время простоя.

Улучшать безопасность и изоляцию системных компонентов
Предстоит работать над изоляцией dom0 и других критических компонентов виртуализации и оркестрации, внедрять механизмы безопасной загрузки (secure boot), контроля целостности, изоляции окружения, анализировать уязвимости и участвовать в повышении уровня защищённости инфраструктуры на всех уровнях: от железа до оркестратора.

Строить гибридные облачные решения
Будете интегрировать внутреннее облако с публичными облаками для создания гибридных и мультиоблачных сценариев, обеспечивать единый опыт эксплуатации сервисов независимо от их физического размещения, поддерживать кросс-платформенные решения для развёртывания, масштабирования и мониторинга сервисов.

Мы ждем, что вы

  • Пишете на Go или Python
  • Знаете, как устроен K8s, администрировали bare-metal-инсталляции, писали свои контроллеры
  • Использовали Terraform, писали свои провайдеры
  • Понимаете, как устроены большие кластеры и как их обслуживать
  • Работали с публичными облаками

Будет плюсом, если вы

  • Умеете и любите разбираться в новых технологиях
  • Пишете на C++ и хотите развиваться в системном программировании для Linux
Посмотреть контакты работодателя

Похожие вакансии

Антиплагиат
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Ozon
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
МТС
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
VK
Удаленная работа
  • Москва

  • Не указана

Атом
Удаленная работа
  • Москва

  • Не указана

Skyeng
Удаленная работа
  • Москва

  • Не указана

Айкон Про

SRE/Site Reliability Engineer

Айкон Про

Удаленная работа
  • Москва

  • от 370000 RUR

Онлайн-школа Фоксфорд

Senior DevOps-инженер / SRE

Онлайн-школа Фоксфорд

Удаленная работа
  • Москва

  • от 400000 RUR

БУРГЕР КИНГ РОССИЯ
Удаленная работа
  • Москва

  • от 400000 RUR

Удаленная работа
  • Москва

  • от 400000 RUR

МТС
Удаленная работа
  • Москва

  • от 400000 RUR

Виасат Тех

Senior DevOps-инженер

Виасат Тех

Удаленная работа
  • Москва

  • от 400000 RUR

БЮРО 1440
Удаленная работа
  • Москва

  • от 400000 RUR

МТС
Удаленная работа
  • Москва

  • от 400000 RUR

eXpress
Удаленная работа
  • Москва

  • от 400000 RUR

Защищенные Телекоммуникации

DevSecOps Engineer

Защищенные Телекоммуникации

Удаленная работа
  • Москва

  • от 400000 RUR

Лаборатория Касперского

Lead DevOps Engineer (В2В)

Лаборатория Касперского

Удаленная работа
  • Москва

  • от 400000 RUR

Your Personal Agent
Удаленная работа
  • Москва

  • от 350000 RUR

2ГИС
Удаленная работа
  • Москва

  • от 350000 RUR

METASCAN
Удаленная работа
  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию