Дообучение модели google/madlad400-10b-mt на уникальном пользовательском параллельном корпусе (RU↔?).
Подключение и настройка OCR-системы (Tesseract или альтернатива).
Интеграция пайплайна: OCR → машинный перевод → сборка результата с сохранением форматирования.
Оптимизация модели для запуска на сервере (DeepSpeed, Accelerate).
Работа с JSON/TSV форматами, кастомный препроцессинг.
Участие в подготовке MVP.
Уверенные знания Python, PyTorch, Hugging Face Transformers.
Опыт дообучения seq2seq моделей.
Опыт работы с многоязычными моделями приветствуется (MADLAD, NLLB и т.д.).
Знание основ OCR, желательно Tesseract.
Опыт работы с облачными серверами (GPU V100/H100), docker/venv/ssh.
Удалённо.
Проектная занятость: 1–2 месяца (возможность продления).
Оплата: обсуждается индивидуально в зависимости от опыта.
Будет плюсом:
Опыт работы с языками Central Asian region.
Понимание особенностей юридической документации.
Навыки DevOps/интеграции моделей в прод.
Как откликнуться:
Пожалуйста, отправьте:
Краткое резюме.
Примеры проектов/код (GitHub, Hugging Face и др.). (если есть)
Краткий рассказ, почему вам интересен проект.