SRE-инженер в YTsaurus

Яндекс

SRE-инженер в YTsaurus

Описание вакансии

Динтаблицы YTsaurus — распределённая СУБД, работающая на большом числе машин и обслуживающая много пользователей. Динтаблицы используются как при подготовке данных внутри Яндекса, так и для ответов внешним пользователям.

Эксплуатация такой большой и нагруженной системы — непростая задача, требующая глубокого погружения в устройство как самой системы, так и рабочего окружения. Кроме того, для администратора крайне важна аккуратность. При этом многие сценарии типичны и могут быть автоматизированы.

Вам предстоит автоматизировать сценарии эксплуатации динамических таблиц (выкладку релизов, проведение учений по выключению дата-центров) и доработать инструментарий, используемый при авариях. Задачи автоматизации включают в себя как логику на Python и Go, так и доработки в серверной части на C++. Надёжность требует комплексного подхода.

Какие задачи вас ждут

Автоматизация релизов
Сейчас словами CI/CD никого не удивишь: есть масса готовых инструментов и историй успеха. Однако для большой системы, которая не может позволить себе потерять данные пользователей, автоматизация выкладки усложняется на порядок. Нужно не просто задеплоить код, но и сделать аккуратный стейджинг, собрать все сигналы о проблемах и деградациях и только после исправлений допустить выкладку дальше. Вы реализуете необходимые проверки и инструменты и автоматизируете этот процесс.

Автоматизация учений
Для проверки надёжности мы постоянно выключаем части сервиса, как правило, изолированные в одной локации. Выключение должно пройти максимально бесшовно для пользователей. Для этого мы выполняем ряд ручных действий, следя за состоянием кластера. Ваша задача — надёжно автоматизировать этот сценарий, для чего в том числе потребуется адаптировать сигналы доступности для работы в деградированном состоянии.

Инструменты аварийной работы
Когда случается неприятное (например, происходят аварии), мы выполняем ручные манипуляции с кластером. Есть несколько типичных сценариев, которые требуют осмысления и фиксации в виде инструментов. Вы реализуете эти инструменты, при необходимости доработав серверный код.

Мы ждем, что вы

  • Знакомы с принципами DevOps и SRE и разделяете их
  • Умеете программировать на Python, Go и C++
  • Ответственны и аккуратны

Будет плюсом, если вы

  • Знакомы с принципами железа и ядра Linux
  • Любите погружаться в детали работы больших систем и разбираться в них
Навыки
  • Linux
  • Python
  • DevOps
Посмотреть контакты работодателя

Похожие вакансии

Яндекс

SRE-инженер

Яндекс

Удаленная работа
  • Москва

  • Не указана

Рекомендуем
VK
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
VK
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
МТС
Удаленная работа
  • Москва

  • Не указана

Rambler&Co

SRE-инженер

Rambler&Co

Удаленная работа
  • Москва

  • Не указана

СОГАЗ
Удаленная работа
  • Москва

  • Не указана

Триколор
Удаленная работа
  • Москва

  • Не указана

МТС
Удаленная работа
  • Москва

  • Не указана

Инсейлс Рус

SRE-инженер

Инсейлс Рус

Удаленная работа
  • Москва

  • Не указана

2ГИС
Удаленная работа
  • Москва

  • Не указана

2ГИС
Удаленная работа
  • Москва

  • Не указана

Риверстарт
Удаленная работа
  • Москва

  • до 300000 RUR

Яндекс
Удаленная работа
  • Москва

  • до 300000 RUR

Гарда Технологии
Удаленная работа
  • Москва

  • до 300000 RUR

Удаленная работа
  • Москва

  • до 300000 RUR

Флант
Удаленная работа
  • Москва

  • до 300000 RUR

iiko, Компания Айко

SRE инженер

iiko, Компания Айко

Удаленная работа
  • Москва

  • от 200000 RUR

МойОфис
Удаленная работа
  • Москва

  • от 200000 RUR

Делимобиль
Удаленная работа
  • Москва

  • от 200000 RUR

Делимобиль
Удаленная работа
  • Москва

  • от 200000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию