Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса)

Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса)

Описание вакансии

Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду

Ключевые задачи команды, связанные с железом:

* Развертывание и обслуживание высокопроизводительных GPU-кластеров на платформах NVIDIA HGX и PCIe

* Управление конфигурацией и автоматизация инфраструктуры физических серверов различных вендоров с помощью IaC (Ansible, Terraform)

* Диагностика и устранение неисправностей на всех уровнях: от аппаратного (GPU, CPU, память, сеть, питание, охлаждение) до системного (ОС, драйверы, низкоуровневое ПО)

Обязанности:

  • Установка, настройка и обслуживание физических серверов и GPU-кластеров от производителей Asus, Dell, Supermicro, Kaytus на платформах HGX и PCIe.
  • Диагностика и устранение неисправностей на уровне аппаратного обеспечения (GPU, CPU, память, материнские платы, сетевые адаптеры, системы питания и охлаждения), базового ПО (BMC/IPMI, UEFI/BIOS), ОС (драйверы, ядро)
  • Мониторинг и анализ состояния аппаратного обеспечения: температура, мощность, состояние компонентов (SMART, показания датчиков через BMC/IPMI/Redfish), производительность GPU/CPU. Реагирование на аппаратные алерты
  • Работа с системами удаленного управления (BMC/IPMI - iDRAC, ASMB, Supermicro IPMI, Redfish) для контроля, перезагрузки, диагностики и обновления ПО серверов
  • Взаимодействие с вендорами (Asus, Dell, Supermicro, Kaytus) и поставщиками по вопросам гарантийного обслуживания, замены компонентов (FRU), апгрейдов и решения сложных аппаратных проблем
  • Участие в планировании и развертывании новых аппаратных платформ, оценка их совместимости и соответствия требованиям LLM-нагрузок
  • Написание Ansible плейбуков и ролей для автоматизированной настройки и управления физическими серверами (прошивки, BIOS/UEFI, ОС, драйверы, мониторинг)
  • Разработка и поддержка Terraform конфигураций (где применимо к управлению инфраструктурой, взаимодействующей с железом)
  • Реагирование и решение проблем на уровне ОС (Linux), сети (L2/L3, анализ трафика - tcpdump), производительности (strace, perf, nvidia-smi, dmesg)
  • Поддержка систем мониторинга (Prometheus/VictoriaMetrics, Grafana, Zabbix) для аппаратного уровня и связанных сервисов

Требования:

  • Глубокие знания и практический опыт администрирования Linux (Ubuntu/CentOS/RHEL)
  • Опыт работы и диагностики физического серверного оборудования (CPU, RAM, диски, RAID, сетевые карты, PSU, системы охлаждения) от ключевых вендоров: Asus, Dell, Supermicro. Знание их особенностей и инструментов управления (iDRAC, IPMI)
  • Опыт работы с GPU-серверами, понимание специфики их эксплуатации (охлаждение, питание). Знание платформ NVIDIA HGX и PCIe
  • Уверенное понимание сетевых технологий (TCP/IP, Ethernet, VLAN, LACP). Опыт диагностики сетевых проблем на физическом и системном уровне (tcpdump, netstat, ip, ethtool)
  • Опыт работы с системами удаленного управления серверами (BMC/IPMI/Redfish)
  • Опыт работы с системами мониторинга (Zabbix, Prometheus/Grafana, VictoriaMetrics) и настройки мониторинга аппаратных метрик
  • Опыт работы с Ansible для управления конфигурацией (включая физические серверы)
  • Умение анализировать логи (системные, драйверов, BMC, приложений) и проводить расследование инцидентов
  • Готовность к работе с физическим оборудованием (установка в стойку, подключение кабелей, замена компонентов - hands-on)

Условия:

  • Достойная заработная плата + годовой бонус
  • Сильная команда
  • ДМС, с первого рабочего дня
  • Работа в аккредитованной IT компании
  • Локация: Москва, м. Кутузовская/Павелецкая
Навыки
  • GPU
  • IaC
  • Ansible
  • Terraform
  • LLM
  • Linux
  • Prometheus
  • Grafana
  • Zabbix
Посмотреть контакты работодателя

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию