О проекте
Разработка алгоритма классификации текстовых сообщений с использованием современных методов векторного представления текста. Решение должно быть масштабируемым, эффективным и готовым к интеграции в production-среду.
Ключевые задачи:
- Предобработка текста (очистка, нормализация, токенизация, лемматизация).
- Создание продуктивных решений с эмбеддинговыми моделями разных типов:
-Контекстно-независимые: Word2Vec, FastText, GloVe.
-Контекстно-зависимые: BERT, RoBERTa, DeBERTa.
-Современные SOTA-модели:
▪ BGE-M3 (BAAI General Embedding, мультиязычные эмбеддинги).
▪ E5 (Microsoft, текстовые эмбеддинги для поиска и классификации).
▪ Sentence-BERT (SBERT) для эффективного сравнения текстов.
- Оптимизация скорости инференса (квантование, дистилляция, ONNX-экспорт).
- Оценка качества (F1, Precision/Recall, ROC-AUC) и A/B-тестирование.
Требования к кандидату
Обязательные:
- Опыт работы с NLP (3+ лет).
- Глубокое понимание эмбеддинговых моделей
- (разница между static и contextual embeddings).
Практические навыки:
- Python (PyTorch/TensorFlow, Hugging Face Transformers, scikit-learn).
- Библиотеки для NLP: spaCy, NLTK, gensim.
- o Работа с векторными БД (FAISS, Annoy, Qdrant — будет плюсом).
- Умение доносить идеи: визуализация результатов, отчёты.
- Желательные:
- Опыт деплоя ML-моделей (Docker, FastAPI, Triton Inference Server, Streamlit).
- Знание SQL и основ MLOps (DVC, MLflow).
Условия:
- Полное соблюдение ТК РФ;
- Возможность удаленной работы;
- После проекта возможно принятие в штат;
- Гибкий график;
- Возможность профессионального и карьерного роста;
- Молодой дружный коллектив;
- Развитая корпоративная культура.
- Работа в аккредитованной ИТ-компании.