Вакансия Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса) в городе Москва

Описание вакансии

Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду

Ключевые задачи команды, связанные с железом:

* Развертывание и обслуживание высокопроизводительных GPU-кластеров на платформах NVIDIA HGX и PCIe

* Управление конфигурацией и автоматизация инфраструктуры физических серверов различных вендоров с помощью IaC (Ansible, Terraform)

* Диагностика и устранение неисправностей на всех уровнях: от аппаратного (GPU, CPU, память, сеть, питание, охлаждение) до системного (ОС, драйверы, низкоуровневое ПО)

Обязанности:

Установка, настройка и обслуживание физических серверов и GPU-кластеров от производителей Asus, Dell, Supermicro, Kaytus на платформах HGX и PCIe.
Диагностика и устранение неисправностей на уровне аппаратного обеспечения (GPU, CPU, память, материнские платы, сетевые адаптеры, системы питания и охлаждения), базового ПО (BMC/IPMI, UEFI/BIOS), ОС (драйверы, ядро)
Мониторинг и анализ состояния аппаратного обеспечения: температура, мощность, состояние компонентов (SMART, показания датчиков через BMC/IPMI/Redfish), производительность GPU/CPU. Реагирование на аппаратные алерты
Работа с системами удаленного управления (BMC/IPMI - iDRAC, ASMB, Supermicro IPMI, Redfish) для контроля, перезагрузки, диагностики и обновления ПО серверов
Взаимодействие с вендорами (Asus, Dell, Supermicro, Kaytus) и поставщиками по вопросам гарантийного обслуживания, замены компонентов (FRU), апгрейдов и решения сложных аппаратных проблем
Участие в планировании и развертывании новых аппаратных платформ, оценка их совместимости и соответствия требованиям LLM-нагрузок
Написание Ansible плейбуков и ролей для автоматизированной настройки и управления физическими серверами (прошивки, BIOS/UEFI, ОС, драйверы, мониторинг)
Разработка и поддержка Terraform конфигураций (где применимо к управлению инфраструктурой, взаимодействующей с железом)
Реагирование и решение проблем на уровне ОС (Linux), сети (L2/L3, анализ трафика - tcpdump), производительности (strace, perf, nvidia-smi, dmesg)
Поддержка систем мониторинга (Prometheus/VictoriaMetrics, Grafana, Zabbix) для аппаратного уровня и связанных сервисов

Требования:

Глубокие знания и практический опыт администрирования Linux (Ubuntu/CentOS/RHEL)
Опыт работы и диагностики физического серверного оборудования (CPU, RAM, диски, RAID, сетевые карты, PSU, системы охлаждения) от ключевых вендоров: Asus, Dell, Supermicro. Знание их особенностей и инструментов управления (iDRAC, IPMI)
Опыт работы с GPU-серверами, понимание специфики их эксплуатации (охлаждение, питание). Знание платформ NVIDIA HGX и PCIe
Уверенное понимание сетевых технологий (TCP/IP, Ethernet, VLAN, LACP). Опыт диагностики сетевых проблем на физическом и системном уровне (tcpdump, netstat, ip, ethtool)
Опыт работы с системами удаленного управления серверами (BMC/IPMI/Redfish)
Опыт работы с системами мониторинга (Zabbix, Prometheus/Grafana, VictoriaMetrics) и настройки мониторинга аппаратных метрик
Опыт работы с Ansible для управления конфигурацией (включая физические серверы)
Умение анализировать логи (системные, драйверов, BMC, приложений) и проводить расследование инцидентов
Готовность к работе с физическим оборудованием (установка в стойку, подключение кабелей, замена компонентов - hands-on)

Условия:

Достойная заработная плата + годовой бонус
Сильная команда
ДМС, с первого рабочего дня
Работа в аккредитованной IT компании
Локация: Москва, м. Кутузовская/Павелецкая

Навыки

GPU
IaC
Ansible
Terraform
LLM
Linux
Prometheus
Grafana
Zabbix

Посмотреть контакты работодателя

Зарплата
Не указана
Занятость
Полная занятость, Полный день
Опыт работы
Более 6 лет
Дата размещения:
25.08.2025 11:22:57

Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса)

Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса)

Описание вакансии

Навыки

Краткое описание вакансии

Зарплата

Занятость

Опыт работы

Дата размещения:

Похожие вакансии

Хотите оставить вакансию?