Инженер по эксплуатации ML-платформы

Яндекс

Инженер по эксплуатации ML-платформы

Описание вакансии

В Яндексе ежедневно запускаются десятки обучений нейросетей, использующие десятки хостов с сотнями GPU на основе облачной платформы запуска batch-задач и распределённого хранилища данных YTsaurus. Поверх этой платформы реализован набор инструментов удобного конфигурирования распределённых вычислений для обучения нейросетей. Они обеспечивают выделение облачных нод с GPU, доставку кода обучения и данных на эти ноды, отслеживание статуса и результата обучения.

Мы ищем человека, который готов погрузиться в нюансы реализации этих инструментов и на основе этих знаний будет помогать ML-инженерам эффективно использовать инфраструктуру для машинного обучения, а также решать проблемы, возникающие при запусках обучений нейросетей.

Какие задачи вас ждут:

Решение технических проблем
Вас ждут сбор и анализ первичной диагностики проблем с обучением, поиск первопричин падения или медленной работы распределённых вычислений, анализ логов и показаний мониторингов.

Взаимодействие с командами разработки инструментов ML
Вам предстоит собирать и анализировать фичреквесты и багрепорты, возникающие в рамках использования инструментов ML, и обрабатывать их вместе с разработчиками продукта для улучшения качества инструментов.

Консультирование ML-инженеров, пополнение базы знаний
Вы будете помогать ML-инженерам эффективно запускать обучения, рассказывать об улучшениях инструментов ML и объяснять нюансы их работы коллегам.

Мы ждем, что вы

  • Администрировали и настраивали Unix-системы, имеете опыт работы в Linux-консоли на уровне администратора
  • Хорошо понимаете сетевой стек
  • Умеете писать скрипты автоматизации на Bash и Python
  • Работали с системами контейнеризации и оркестрации (Docker/Kuber)
  • Занимались траблшутингом и дебагом пользовательских проблем
  • Умеете понятно и структурированно объяснять сложные вещи

Будет плюсом, если вы

  • Работали с IPv6-сетями
  • На базовом уровне понимаете распределённые вычисления (MapReduce)
  • Обладаете знаниями в области High Performance Computing, в частности MPI
  • Работали с Apache Hadoop / YTsaurus и с распределёнными хранилищами типа Lustre/BeeGFS.
  • Администрировали GPU-кластеры: знакомы с CUDA, InfiniBand, NCCL
Навыки
  • Linux
  • Docker
  • Python
Посмотреть контакты работодателя

Похожие вакансии

Медиа Бизнес Солюшенс

ML-инженер

Медиа Бизнес Солюшенс

Полный день
  • Москва

  • Не указана

Рекомендуем
VK
Полный день
  • Москва

  • Не указана

Рекомендуем
Полный день
  • Москва

  • от 350000 RUR

Рекомендуем
Эвотор

ML Engineer

Эвотор

Удаленная работа
  • Москва

  • от 350000 RUR

Алкогольный холдинг Руст

Промт-инженер / Promt Engineer

Алкогольный холдинг Руст

Полный день
  • Москва

  • от 350000 RUR

СБЕР
Полный день
  • Москва

  • от 350000 RUR

СБЕР
Полный день
  • Москва

  • от 350000 RUR

СБЕР
Полный день
  • Москва

  • от 350000 RUR

VS Robotics (ООО АБТ)

ML Engineer (Speech)

VS Robotics (ООО АБТ)

Удаленная работа
  • Москва

  • от 350000 RUR

БЕРГЕР
Полный день
  • Москва

  • до 300000 RUR

АО «ОТП Банк» (JSC «OTP Bank»)

Senior ML-engineer/MLOps

АО «ОТП Банк» (JSC «OTP Bank»)

Полный день
  • Москва

  • до 300000 RUR

Октопустех

ML-инженер

Октопустех

Удаленная работа
  • Москва

  • до 300000 RUR

МОБИЛЬНЫЕ ТЕХНОЛОГИИ

ML-инженер

МОБИЛЬНЫЕ ТЕХНОЛОГИИ

Удаленная работа
  • Москва

  • от 200000 RUR

Heaad
Полный день
  • Москва

  • до 350000 RUR

АО «ОТП Банк» (JSC «OTP Bank»)

ML Validation Engineer

АО «ОТП Банк» (JSC «OTP Bank»)

Полный день
  • Москва

  • до 350000 RUR

Азиатско-Тихоокеанский Банк

ML-инженер

Азиатско-Тихоокеанский Банк

Полный день
  • Москва

  • до 350000 RUR

СБЕР
Полный день
  • Москва

  • до 350000 RUR

OneTwoTrip
Удаленная работа
  • Москва

  • до 350000 RUR

Интерфакс

ML - инженер (СКАН)

Интерфакс

Удаленная работа
  • Москва

  • до 350000 RUR

СБЕР
Полный день
  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию