В Яндексе ежедневно запускаются десятки обучений нейросетей, использующие десятки хостов с сотнями GPU на основе облачной платформы запуска batch-задач и распределённого хранилища данных YTsaurus. Поверх этой платформы реализован набор инструментов удобного конфигурирования распределённых вычислений для обучения нейросетей. Они обеспечивают выделение облачных нод с GPU, доставку кода обучения и данных на эти ноды, отслеживание статуса и результата обучения.
Мы ищем человека, который готов погрузиться в нюансы реализации этих инструментов и на основе этих знаний будет помогать ML-инженерам эффективно использовать инфраструктуру для машинного обучения, а также решать проблемы, возникающие при запусках обучений нейросетей.
Какие задачи вас ждут:
Решение технических проблем
Вас ждут сбор и анализ первичной диагностики проблем с обучением, поиск первопричин падения или медленной работы распределённых вычислений, анализ логов и показаний мониторингов.
Взаимодействие с командами разработки инструментов ML
Вам предстоит собирать и анализировать фичреквесты и багрепорты, возникающие в рамках использования инструментов ML, и обрабатывать их вместе с разработчиками продукта для улучшения качества инструментов.
Консультирование ML-инженеров, пополнение базы знаний
Вы будете помогать ML-инженерам эффективно запускать обучения, рассказывать об улучшениях инструментов ML и объяснять нюансы их работы коллегам.
Мы ждем, что вы
Будет плюсом, если вы
Москва
Не указана
Москва
от 350000 RUR