Вместе с масштабным развитием IT-направления, Wildberries строит культуру Trust and Safety, гарантируя непрерывную безопасность и доверие между компанией, её сотрудниками, пользователями и клиентами.
Мы - платформенная команда в направлении Trust & Safety.
Наша главная задача - контроль, хранение и обработка очень большого объема данных(datalake)
Отвечаем за обеспечение инфраструктуры и предоставление платформенных решений для всего направления T&S (общие шины данных, контроль соблюдения контрактов, PaaS - Platform as a Service, etc), а также мы отвечаем за внедрение best practices на уровне всего департамента.
Задачи:
Обеспечение надежности и доступности сервисов (SLA/SLO).
Анализ и устранение узких мест в инфраструктуре.
Разработка и внедрение SRE-практик: error budgets, postmortems.
Управление алертами и снижение уровня шума (Alertmanager, Grafana).
Оптимизация работы BigData-кластеров (Kafka, ClickHouse, Flink).
Автоматизация реагирования на инциденты.
Тесное взаимодействие с Dev-командами для улучшения observability.
Для этого нужно:
Опыт в SRE/DevOps от 3 лет.
Глубокое понимание SRE-принципов.
Навыки работы с Kubernetes и распределенными системами.
Опыт настройки и анализа метрик/логов (PromQL, Loki, Elasticsearch).
Умение писать код для автоматизации (Python, Go, Bash).
Опыт управления инцидентами и проведения postmortem-аналитики.
Стек:
Observability: Prometheus, Grafana, ELK, Sentry.
Data Engineering: Kafka, Flink, AirFlow, ClickHouse.
Automation: Ansible, Terraform, Kubernetes Operators.
Мы предлагаем:
Премиум Бонус
Москва
до 240000 RUR