Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду
Ключевые задачи команды, связанные с железом:
* Развертывание и обслуживание высокопроизводительных GPU-кластеров на платформах NVIDIA HGX и PCIe
* Управление конфигурацией и автоматизация инфраструктуры физических серверов различных вендоров с помощью IaC (Ansible, Terraform)
* Диагностика и устранение неисправностей на всех уровнях: от аппаратного (GPU, CPU, память, сеть, питание, охлаждение) до системного (ОС, драйверы, низкоуровневое ПО)
Обязанности:
- Установка, настройка и обслуживание физических серверов и GPU-кластеров от производителей Asus, Dell, Supermicro, Kaytus на платформах HGX и PCIe.
- Диагностика и устранение неисправностей на уровне аппаратного обеспечения (GPU, CPU, память, материнские платы, сетевые адаптеры, системы питания и охлаждения), базового ПО (BMC/IPMI, UEFI/BIOS), ОС (драйверы, ядро)
- Мониторинг и анализ состояния аппаратного обеспечения: температура, мощность, состояние компонентов (SMART, показания датчиков через BMC/IPMI/Redfish), производительность GPU/CPU. Реагирование на аппаратные алерты
- Работа с системами удаленного управления (BMC/IPMI - iDRAC, ASMB, Supermicro IPMI, Redfish) для контроля, перезагрузки, диагностики и обновления ПО серверов
- Взаимодействие с вендорами (Asus, Dell, Supermicro, Kaytus) и поставщиками по вопросам гарантийного обслуживания, замены компонентов (FRU), апгрейдов и решения сложных аппаратных проблем
- Участие в планировании и развертывании новых аппаратных платформ, оценка их совместимости и соответствия требованиям LLM-нагрузок
- Написание Ansible плейбуков и ролей для автоматизированной настройки и управления физическими серверами (прошивки, BIOS/UEFI, ОС, драйверы, мониторинг)
- Разработка и поддержка Terraform конфигураций (где применимо к управлению инфраструктурой, взаимодействующей с железом)
- Реагирование и решение проблем на уровне ОС (Linux), сети (L2/L3, анализ трафика - tcpdump), производительности (strace, perf, nvidia-smi, dmesg)
- Поддержка систем мониторинга (Prometheus/VictoriaMetrics, Grafana, Zabbix) для аппаратного уровня и связанных сервисов
Требования:
- Глубокие знания и практический опыт администрирования Linux (Ubuntu/CentOS/RHEL)
- Опыт работы и диагностики физического серверного оборудования (CPU, RAM, диски, RAID, сетевые карты, PSU, системы охлаждения) от ключевых вендоров: Asus, Dell, Supermicro. Знание их особенностей и инструментов управления (iDRAC, IPMI)
- Опыт работы с GPU-серверами, понимание специфики их эксплуатации (охлаждение, питание). Знание платформ NVIDIA HGX и PCIe
- Уверенное понимание сетевых технологий (TCP/IP, Ethernet, VLAN, LACP). Опыт диагностики сетевых проблем на физическом и системном уровне (tcpdump, netstat, ip, ethtool)
- Опыт работы с системами удаленного управления серверами (BMC/IPMI/Redfish)
- Опыт работы с системами мониторинга (Zabbix, Prometheus/Grafana, VictoriaMetrics) и настройки мониторинга аппаратных метрик
- Опыт работы с Ansible для управления конфигурацией (включая физические серверы)
- Умение анализировать логи (системные, драйверов, BMC, приложений) и проводить расследование инцидентов
- Готовность к работе с физическим оборудованием (установка в стойку, подключение кабелей, замена компонентов - hands-on)
Условия:
- Достойная заработная плата + годовой бонус
- Сильная команда
- ДМС, с первого рабочего дня
- Работа в аккредитованной IT компании
- Локация: Москва, м. Кутузовская/Павелецкая