SRE-инженер в YTsaurus

Яндекс

SRE-инженер в YTsaurus

Описание вакансии

Динтаблицы YTsaurus — распределённая СУБД, работающая на большом числе машин и обслуживающая много пользователей. Динтаблицы используются как при подготовке данных внутри Яндекса, так и для ответов внешним пользователям.

Эксплуатация такой большой и нагруженной системы — непростая задача, требующая глубокого погружения в устройство как самой системы, так и рабочего окружения. Кроме того, для администратора крайне важна аккуратность. При этом многие сценарии типичны и могут быть автоматизированы.

Вам предстоит автоматизировать сценарии эксплуатации динамических таблиц (выкладку релизов, проведение учений по выключению дата-центров) и доработать инструментарий, используемый при авариях. Задачи автоматизации включают в себя как логику на Python и Go, так и доработки в серверной части на C++. Надёжность требует комплексного подхода.

Какие задачи вас ждут

Автоматизация релизов
Сейчас словами CI/CD никого не удивишь: есть масса готовых инструментов и историй успеха. Однако для большой системы, которая не может позволить себе потерять данные пользователей, автоматизация выкладки усложняется на порядок. Нужно не просто задеплоить код, но и сделать аккуратный стейджинг, собрать все сигналы о проблемах и деградациях и только после исправлений допустить выкладку дальше. Вы реализуете необходимые проверки и инструменты и автоматизируете этот процесс.

Автоматизация учений
Для проверки надёжности мы постоянно выключаем части сервиса, как правило, изолированные в одной локации. Выключение должно пройти максимально бесшовно для пользователей. Для этого мы выполняем ряд ручных действий, следя за состоянием кластера. Ваша задача — надёжно автоматизировать этот сценарий, для чего в том числе потребуется адаптировать сигналы доступности для работы в деградированном состоянии.

Инструменты аварийной работы
Когда случается неприятное (например, происходят аварии), мы выполняем ручные манипуляции с кластером. Есть несколько типичных сценариев, которые требуют осмысления и фиксации в виде инструментов. Вы реализуете эти инструменты, при необходимости доработав серверный код.

Мы ждем, что вы

  • Знакомы с принципами DevOps и SRE и разделяете их
  • Умеете программировать на Python, Go и C++
  • Ответственны и аккуратны

Будет плюсом, если вы

  • Знакомы с принципами железа и ядра Linux
  • Любите погружаться в детали работы больших систем и разбираться в них
Навыки
  • Linux
  • Python
  • DevOps
Посмотреть контакты работодателя

Похожие вакансии

Яндекс
Полный день
  • Москва

  • Не указана

Рекомендуем
Честный знак.рф

SRE-инженер (Ядро)

Честный знак.рф

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
TradingView
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

СОГАЗ
Удаленная работа
  • Москва

  • Не указана

Сбер Бизнес Софт

SRE-инженер

Сбер Бизнес Софт

Полный день
  • Москва

  • Не указана

Selecty
Удаленная работа
  • Москва

  • до 370000 RUR

Премиум Бонус
Удаленная работа
  • Москва

  • до 370000 RUR

СБЕР
Полный день
  • Москва

  • до 370000 RUR

RUTUBE
Удаленная работа
  • Москва

  • до 370000 RUR

Флант

SRE-инженер

Флант

Удаленная работа
  • Москва

  • до 370000 RUR

Флант
Удаленная работа
  • Москва

  • до 370000 RUR

Яндекс
Полный день
  • Москва

  • до 370000 RUR

VK
Полный день
  • Москва

  • до 370000 RUR

Сиэс Групп
Удаленная работа
  • Москва

  • до 370000 RUR

VK
Удаленная работа
  • Москва

  • до 370000 RUR

Миксвел
Полный день
  • Москва

  • до 370000 RUR

Progressive Mind
Удаленная работа
  • Москва

  • до 6000 USD

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию