Senior ML-engineer (GigaChat Data Alignment)

Описание вакансии

Мы - команда GigaChat Data, готовим данные для обучения базовых моделей GigaChat во всех модальностях (Text, Vision, Audio): SFT, RLHF, использование навыков, безопасность модели и пр. Кроме подготовки базовой модели, мы реализуем продуктовые решения на основе базовой модели.

Направления задач:

звуковая модальность GigaChat - большой языковой модели для генерации текста и ответов на вопросы на основе текста и аудио
ASR - распознавание речи, automatic speech recognition. Краеугольная задача нашего отдела - сделать качественный, быстрый и стабильный ASR
Keyword Spotting (Wake-word detection) - важный компонент речевых технологий, через который проходит любое взаимодействие пользователя с устройством. Цель алгоритма keyword spotting - выявить ключевое слово в условиях шума и не допустить ложных активаций.

Обязанности

подготовка данных для обучения и тестирования моделей
поиск точек роста, узких мест, нахождение путей улучшения качества моделей за счет данных
предобработка, фильтрация и сегментация данных
выстраивание архитектуры и написание пайплайнов разметки/сбора данных
подбор online и offline метрик, анализ конечного продукта.

Требования

опыт работы на Python на высоком уровне (алгоритмы, структуры данных, GIL, async)
опыт работы над улучшением качества моделей базовое знание статистики

Будет преимуществом:

обучение в ШАД
опыт с краудсорсингом
опыт работы с моделями распознавания речи/LLM.

Условия

комфортный современный офис - м. Кутузовская
ежегодный пересмотр зарплаты, годовой бонус
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера
корпоративная пенсионная программа.