ПРОЕКТ:
Система обработки документов - классификация, выделение атрибутивного состава, поиск подписей, печатей.
СТЕК:
Python, PyTorch, Git, KubeFlow, FastAPI, Kafka, Docker, Vllm
ОБЯЗАННОСТИ:
- Разработка моделей для обработки документов: OCR, NER, DocQA, парсинг структуры документа (layout detection)
- R&D новых подходов, проверка гипотез
- Создание синтетических данных
- Использование и адаптация современных CV и NLP SOTA-моделей
- Обработка разнородных документов (сканы, фото, PDF, таблицы, формы), включая структурированные и неструктурированные
- Написание воспроизводимого кода, оформление экспериментов в воспроизводимые пайплайны, включающие разметку и обработку данных Работа с LLM моделями, Prompt Engineering
- Эксперименты по повышению качества и сравнение разных подходов
- Взаимодействие с бизнес-подразделениями для уточнения требований и презентации решений
ТРЕБОВАНИЯ:
- Опыт работы в Machine Learning от 3 лет
- Успешный опыт выведения бизнес-решения в продакшн (умение с нуля создавать готовое бизнес-решение)
- Опыт работы с OCR/VL/CV моделями
- Опыт работы с LLM-моделями
- Опыт работы с RAG