Senior/Lead Data Scientist (AI in Operations)

Описание вакансии

Проект: «Цифровые знания» — универсальный ИИ-сервис знаний + универсальный ИИ-агент для быстрого запуска автоматизации по СОП/инструкциям

Построить конвейер из разнородных источников (PDF/DOCX/HTML/Confluence/БЗ) с OCR и извлечением структуры (таблицы, шаги процедуры, ветвления, исключения)
Спроектировать машиночитаемый формат инструкции (DSL/JSON) и версии/жизненный цикл знаний (версионирование, диффы, аудит, трассировка изменений)

Реализовать инструмент авто-формирования промтов для ролей агентов на основе структуры СОП
Генерировать/оркестрировать мультиагентные цепочки «из инструкции»: роли, контракты между агентами, требования к интеграциям, схемы эскалаций

Собирать датасеты из инструкций: пары (шаг → действие/контроль/артефакт), контрпримеры, негативные семплы
Автоматически генерировать синтетические данные и проверки (self-play, consistency checks)

Пайплайны ML: версия данных/моделей, CI/CD, feature/embedding store, каталоги экспериментов, калибровка
Логи соответствия СОП: «evidence-by-step», отчёты аудита, привязка к версии инструкции

4–6+ лет в Applied ML/NLP и/или Data/ML Platform, продовые запуск и поддержка.
Сильный Python (типичный стек: FastAPI, asyncio, pydantic), уверенный SQL.
Практика с LLM/NLP: эмбеддинги, RAG, rerankers, инструменты наподобие LangChain/LlamaIndex (или свой оркестратор).
Векторные БД (Faiss/Milvus/pgvector/Pinecone) и классические хранилища (Postgres/ClickHouse/Elastic).
Опыт проектирования метрик качества для LLM-систем (retrieval/answer quality, latency, cost)

Будет плюсом:

Опыт с открытыми и коммерческими LLM.
Док-парсинг: layout/структурные модели (LayoutLM/Donut/DocTR), таблицы/диаграммы, распознавание шагов/ветвлений.
Онтологии/знаниевые графы (RDF/OWL), декларативные DSL, BPMN/DMN.
Domain: операционные центры, контакт-центры, BPO, комплаенс-процессы.
Инструменты наблюдаемости за LLM (Langfuse/Arize Phoenix/OpenTelemetry)
Опыт использования GigaChat, Kandinsky и аналогов в продуктах, навыки создания и использования AI-агентов
Инструментальное владение AI для анализа, генерации и автоматизации.

Влияние на ядро продукта: вы определяете формат инструкции, контуры RAG и обучение агентов.
Продуктовая роль end-to-end: от дизайна данных до прод-инференса и метрик.
Современный стек, свобода выбора решений, быстрые итерации
Возможен гибридный формат работы
Ежегодный пересмотр зарплаты. Годовая премия
Корпоративный спортзал и зоны отдыха
Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
Программа адаптации и помощь руководителя на старте
Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
Вознаграждение за рекомендацию друзей в команду Сбера.