Senior SRE инженер [Trust & Safety]

Описание вакансии

Wildberries и Russ — лидер рынков e-commerce и наружной рекламы в России и странах СНГ.
Ежедневно более 4 тысяч наших IT-специалистов создают цифровую экосистему, состоящую из сотен тысяч продуктов. На сегодня мы создали крупнейшую онлайн-платформу для покупки и продажи товаров в России и странах СНГ.

Вместе с масштабным развитием IT-направления мы формируем культуру Trust and Safety, гарантируя непрерывную безопасность и доверие между компанией, её сотрудниками, пользователями и клиентами.

Мы - платформенная команда в направлении Trust & Safety. Наша главная задача - контроль, хранение и обработка очень большого объема данных(datalake)

Отвечаем за обеспечение инфраструктуры и предоставление платформенных решений для всего направления T&S (общие шины данных, контроль соблюдения контрактов, PaaS - Platform as a Service, etc), а также мы отвечаем за внедрение best practices на уровне всего департамента.

Наши задачи:

• Обеспечение надежности и доступности сервисов с фокусом на SLA/SLO
• Оптимизация производительности и устранение узких мест в инфраструктуре RedPanda/Kafka и Cassandra
• Внедрение и совершенствование SRE-практик: error budgets, postmortems, chaos engineering
• Настройка и управление алертами для снижения шума (Alertmanager, Grafana)
• Оптимизация работы высоконагруженных BigData-кластеров (RedPanda/Kafka, Cassandra, Flink)
• Автоматизация процессов реагирования на инциденты и инфраструктурных задач
• Улучшение observability в тесном взаимодействии с командами разработки
• Внедрение улучшений для повышения отказоустойчивости и масштабируемости систем

Необходимые опыт и навыки:

• Опыт работы в SRE/DevOps от 4 лет
• Глубокое понимание принципов SRE и их применения
• Экспертиза в настройке и эксплуатации RedPanda/Kafka и Cassandra
• Навыки работы с Kubernetes и распределенными системами
• Опыт настройки и анализа метрик/логов (PromQL, Loki, Elasticsearch)
• Умение разрабатывать инструменты автоматизации (Python, Go, Bash)
• Навыки управления инцидентами и проведения postmortem-анализа

Будет плюсом:

• Опыт работы с Service-Level Objectives (SLO)
• Знание Chaos Engineering (Chaos Mesh, Litmus)
• Глубокое понимание BigData-стеков: RedPanda/Kafka, Cassandra, Spark

Наш стек:

• Observability: Prometheus, Grafana, ELK, Sentry
• Data Engineering: RedPanda/Kafka, Cassandra, Flink, AirFlow
• Automation: Ansible, Terraform, Kubernetes Operators
• Хранилища: Redis, S3/Ceph

Что мы предлагаем:

• Полная удаленка или свободное посещение офисов в Москве и Санкт-Петербурге
• IT-ипотека и оформление в аккредитованную IT-компанию
• Бесплатное питание в офисах, ДМС со стоматологией (после испытательного срока)
• Корпоративное обучение и IT-мероприятия

Наш процесс найма:

• 30-минутное HR интервью, чтобы рассказать о себе и узнать больше о вакансии
• Техническое интервью длительностью 1 час
• Финальное интервью с лидом длительностью 1 час