Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду.
Обязанности
Мониторинг и проактивный анализ:
- организация и настройка централизованного мониторинга состояния серверного оборудования (аппаратные ошибки, нагрузка, температура) и программных сервисов (WEB UI, LLM-сервисы, базы данных) на стороне клиентов
- анализ метрик и логов, выявление аномалий и потенциальных проблем до их влияния на бизнес-процессы клиента
- удаленное подключение к клиентским серверам через безопасные каналы для сбора диагностической информации, логов и дампов
- проведение первичного анализа причин инцидентов: определение области проблемы (сеть, оборудование, ПО, конфигурация).
Консультации и инцидент-менеджмент:
- консультирование клиентов по вопросам работы, конфигурации и bestpractices наших сервисов, установленных на сервере
- квалифицированная работа с инцидентами второй линии: диагностика, восстановление работоспособности в рамках своих компетенций, коммуникация с клиентом
четкая маршрутизация сложных инцидентов на 3-ю линию поддержки:
- в разработку ПО — при обнаружении багов, необходимости глубокого анализа кода LLM-моделей или WEB-интерфейса
- к инженерам по оборудованию — при выявлении критических аппаратных сбоев, требующих ремонта или замены компонентов
- составление исчерпывающей документации по инциденту для передачи на третью линию
Автоматизация и улучшение процессов (SRE-фокус):
- разработка скриптов (Python/Bash) для автоматизации рутинных операций: сбор логов, анализ конфигураций, выполнение health-чеков
- участие в улучшении инструментов мониторинга и развертывания
- формирование и ведение базы знаний (Knowledge Base) для повторяющихся проблем и их решений.
Требования
- опыт работы инженером технической поддержки (2-3 линия), SRE, DevOps или администратором Linux от 2 лет
- глубокие знания Linux (Ubuntu/CentOS/RHEL), умение работать в командной строке
- опыт написания скриптов на Python или Bash для автоматизации
- понимание принципов мониторинга (практический опыт с Prometheus, Grafana, Zabbix, Nagios или аналогами)
- понимание сетевых основ (TCP/IP, HTTP/HTTPS, SSH, VPN, Firewalls) для диагностики проблем подключения
- умение работать с системами контейнеризации (Docker) — обязательно
- базовое понимание работы веб-сервисов, REST API и баз данных
- способность четко документировать проблемы и решения
- ответственность, клиентоориентированность и умение работать в стрессовых ситуациях
- хорошие коммуникативные навыки.
Будет огромным плюсом:
- опыт работы с аппаратным обеспечением (серверы, GPU, проблемы с дисками/памятью)
- знакомство с оркестрацией (Kubernetes)
- базовое понимание работы LLM или машинного обучения
- опыт построения процессов в соответствии с ITIL/Incident Management.
Условия
- ДМС с первого рабочего дня
- работа в аккредитованной IT компании
- льготная ипотека от Сбера
- локация: Москва, м. Цветной бульвар
- участие в развитии одного из ключевых направлений GenAI Сбера
- возможность работать с крупнейшими российскими компаниями и промышленными холдингами
- команду экспертов и доступ к передовым технологиям GenAI/LLM
- обучение, рост и участие в стратегических проектах по трансформации отраслей.