Транснефть-Технологии оказывает IT-услуги организациям системы «Транснефть» в области внедрения, технической эксплуатации и сопровождения корпоративных информационных систем и IT-инфраструктуры.
Приглашаем опытного ML разработчика в нашу команду.
Чем предстоит заниматься:
- Рефакторинг и внедрение версионирования данных с метриками;
- Формирование векторного и полнотекстового поиска;
- Объединение результатов векторного и полнотекстового поиска по базе данных;
- Формирование графовой БД;
- Промпт-инжиниринг;
- Кэширование данных;
- Определение loss-функций под метрики ранжирования контекстов на синтетическом наборе данных с random negative sampling;
- Формирование подхода чтения таблиц и списков в документах для помещения этих данных в граф знаний, а также определение мпособа их форматирования для последующей передачи в промпт для LLM;
- Внедрение автоматической метрик METEOR, BLEURT, ROUGE для оценки качества ответов на основе сравнения с эталонными (референсными) ответами;
- Двухкомпонентная валидация данных;
- Создание бенчмарка Close-Domain QA;
- Исследовать применяемые методы оценки (scorers) на наличие там батчинга/асинхронки;
- Генерация с помощью имеющейся LLM синтетических запросов;
- Аугментация набора данных, путём извлечения из оригинальных документов предложений и добавлению их в набор данных в качестве запроса к соответствующему документу (sentence cropping);
- Использование дополнительной модели-ранжировщика (re-ranker) для получения новых комбинаций документов с подходящими и неподходящими к ним запросов (Knowledge distillation, GPL);
- Использование нескольких типов моделей-ранжировщиков для разностороннего обучения ретривера (DRAGON+).
Ожидаем от Вас:
- Наличие успешно реализованных проектов в направлении NLP, возможность продемонстрировать код;
- Умение определять требуемую архитектуру для разработки, обучения и эксплуатации моделей;
- Понимание и опыт практического применения алгоритмов машинного обучения (pytorch, sklearn, xgboost и др.);
- проработали от 2 лет в области создания программного обеспечения в роли python-разработчика, из них от 1 года в области ML-решений;
- используете Docker, Git в повседневной работе;
- работали c инструментами оркестрации процессов (Airflow, Prefeсt, Kubeflow, MLFlow);
- работали с инструментами для управления версиями моделей и данных - DVC;
- Опыт работы с REST API для интеграции моделей машинного обучения.
Мы предлагаем:
- Возможность работать над сложными и значимыми проектами;
- Программы обучения и повышения квалификации за счет компании;
- Широкий социальный пакет: ДМС со стоматологией, компенсация спорта, компенсация санаторно-курортного лечения и отдыха и др.;
- Премии ко Дню нефтяника и к отпуску;
- График работы: 5/2 с 09.00 до 18.00; пятница: до 16.45;
- Гибридный формат работы в офисах в Москве, Самаре и Иркутске или возможность дистанционной работы в других городах.