Проект: «Цифровые знания» — универсальный ИИ-сервис знаний + универсальный ИИ-агент для быстрого запуска автоматизации по СОП/инструкциям
Обязанности
Данные и платформенный контур
Построить конвейер из разнородных источников (PDF/DOCX/HTML/Confluence/БЗ) с OCR и извлечением структуры (таблицы, шаги процедуры, ветвления, исключения)
Спроектировать машиночитаемый формат инструкции (DSL/JSON) и версии/жизненный цикл знаний (версионирование, диффы, аудит, трассировка изменений)
Автогенерация промтов и мультиагентные сценарии
Реализовать инструмент авто-формирования промтов для ролей агентов на основе структуры СОП
Генерировать/оркестрировать мультиагентные цепочки «из инструкции»: роли, контракты между агентами, требования к интеграциям, схемы эскалаций
Обучение и адаптация моделей
Собирать датасеты из инструкций: пары (шаг → действие/контроль/артефакт), контрпримеры, негативные семплы
Автоматически генерировать синтетические данные и проверки (self-play, consistency checks)
Прод и MLOps
Пайплайны ML: версия данных/моделей, CI/CD, feature/embedding store, каталоги экспериментов, калибровка
Логи соответствия СОП: «evidence-by-step», отчёты аудита, привязка к версии инструкции
Требования
4–6+ лет в Applied ML/NLP и/или Data/ML Platform, продовые запуск и поддержка.
Сильный Python (типичный стек: FastAPI, asyncio, pydantic), уверенный SQL.
Практика с LLM/NLP: эмбеддинги, RAG, rerankers, инструменты наподобие LangChain/LlamaIndex (или свой оркестратор).
Векторные БД (Faiss/Milvus/pgvector/Pinecone) и классические хранилища (Postgres/ClickHouse/Elastic).
Опыт проектирования метрик качества для LLM-систем (retrieval/answer quality, latency, cost)
Будет плюсом:
Опыт с открытыми и коммерческими LLM.
Док-парсинг: layout/структурные модели (LayoutLM/Donut/DocTR), таблицы/диаграммы, распознавание шагов/ветвлений.