Мы строим и поддерживаем платформу, объединяющую bare-metal серверы, контейнерные окружения и GPU-ресурсы для ML-нагрузок и высокопроизводительных вычислений.
Наша команда отвечает за устойчивость, производительность и управляемость всей платформы — от compute-узлов и сетевых сегментов до систем хранения и мониторинга.
Инженер в нашей команде — это человек, который понимает, как живёт Linux под нагрузкой, умеет анализировать причины деградаций, автоматизировать эксплуатационные процессы и поддерживать инфраструктуру в стабильном и предсказуемом состоянии.
Наш стек:
Linux (Ubuntu, Debian), Proxmox, pfSense, Ansible, rsyslog, Prometheus, Grafana, Zabbix, ELK, Docker, WireGuard, ZFS, LVM, GitLab CI
Что нужно делать (Обязанности):
- Администрирование Linux-серверов (Ubuntu, Debian, Astra, РедОС: управление системными службами, ресурсами и обновлениями
- Эксплуатация и обслуживание гипервизоров (Proxmox / KVM): управление ВМ, сториджами, снапшотами, репликациями
- Эксплуатация сетевой инфраструктуры и сервисов корпоративного уровня
- Анализ и оптимизация системных ресурсов сервера
- Расследование и устранение деградаций производительности серверов
- Настройка систем мониторинга и алертинга (Prometheus / Zabbix / Grafana / VictoriaMetrics / ELK)
- Централизованный сбор и ротация логов
- Организация политик резервного копирования и восстановления
- Автоматизация рутинных операций через Ansible, bash-скрипты, CI-пайплайны
- Ведение эксплуатационной документации и стандартов (Confluence, GitLab Wiki)
Технические компетенции:
- Уверенное владение Linux-системами: управление systemd-юнитами, логами, сетевыми интерфейсами, пользователями и доступами
- Понимание принципов виртуализации и сетевой маршрутизации на уровне системного администратора
- Опыт работы с файловыми системами и сториджами: LVM, ZFS, RAID, снапшоты, мониторинг IOPS и latency
- Владение инструментами системного профилирования и диагностики производительности Linux
- Практика построения мониторинга метрик и логов с использованием Prometheus, Grafana, Zabbix или аналогов
- Опыт автоматизации конфигураций (Ansible / shell scripting)
- Базовое понимание сетевых протоколов и troubleshooting
- Опыт восстановления из бэкапов, работы с snapshot-механизмами и планированием DR-сценариев
Будет преимуществом:
- Опыт сопровождения Kubernetes / Docker-окружений
- Знание ClickHouse / PostgreSQL на уровне администрирования
- Практика CI (GitLab CI)
- Навыки инфраструктурного GitOps и IaC-подходов
- Опыт эксплуатации распределённых сетей с VLAN / VPN / DMZ
Условия:
- Трудоустройство и работа в соответствии с ТК РФ
- Бесплатный проезд в столичном метро
- Бесплатный проезд по железным дорогам в пригородном сообщении от места жительства до места работы и обратно в пределах Московской области
- Льготы на отдых в оздоровительном комплексе метрополитена Детский оздоровительный лагерь и детский клуб
- Финансовые условия обсуждаем индивидуально в зависимости от опыта кандидата