Мы - команда GigaChat Data, готовим данные для обучения базовых моделей GigaChat во всех модальностях (Text, Vision, Audio): SFT, RLHF, использование навыков, безопасность модели и пр. Кроме подготовки базовой модели, мы реализуем продуктовые решения на основе базовой модели.
Направления задач:
- звуковая модальность GigaChat - большой языковой модели для генерации текста и ответов на вопросы на основе текста и аудио
- ASR - распознавание речи, automatic speech recognition. Краеугольная задача нашего отдела - сделать качественный, быстрый и стабильный ASR
- Keyword Spotting (Wake-word detection) - важный компонент речевых технологий, через который проходит любое взаимодействие пользователя с устройством. Цель алгоритма keyword spotting - выявить ключевое слово в условиях шума и не допустить ложных активаций.
Обязанности
- подготовка данных для обучения и тестирования моделей
- поиск точек роста, узких мест, нахождение путей улучшения качества моделей за счет данных
- предобработка, фильтрация и сегментация данных
- выстраивание архитектуры и написание пайплайнов разметки/сбора данных
- подбор online и offline метрик, анализ конечного продукта.
Требования
- опыт работы на Python на высоком уровне (алгоритмы, структуры данных, GIL, async)
- опыт работы над улучшением качества моделей базовое знание статистики
Будет преимуществом:
- обучение в ШАД
- опыт с краудсорсингом
- опыт работы с моделями распознавания речи/LLM.
Условия
- комфортный современный офис - м. Кутузовская
- ежегодный пересмотр зарплаты, годовой бонус
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа.