Стажер Data Scientist (NLP)

Москва, Овчинниковская набережная, 18/1с1

Метро: Новокузнецкая

Описание вакансии

Сейчас мы ищем стажеров на проекты по разработке, адаптации и внедрению новых NLP-решений — от классических моделей для анализа текста (поиск, рекомендации, автоматизации процессов) до современных агентских и RAG-систем для повышения эффективности производственных и бизнес-процессов.

Стек технологий:

Разработка: Python, Git, FastAPI, GitLab, Docker, Prometheus, Grafana.
ML инфраструктура: JupyterHub, MLFlow, Airflow.
ML: PyTorch, Transformers, Triton, NLTK, SpaCy.
Агенты: LangGraph, векторные БД (FAISS/Qdrant), sglang.
Данные: SQL (PostgreSQL/ClickHouse/GreenPlum), S3, Polars, Pandas, NumPy.
Процессы: Jira, Confluence.

Обязательные навыки:

Знания и умение работать с Python, ООП.
Умение работать с git.
Знание основ обработки естественного языка: токенизация, лемматизация, стоп-слова, регулярные выражения.
Понимание классических методов NLP: TF-IDF, Bag of Words, Word2Vec/FastText.
Умение работать с готовыми моделями из Hugging Face (загрузка, инференс) для базовых задач (классификация текста, NER, QA, LLM).
Понимание архитектуры Transformer и различий между типами моделей (encoder, decoder, encoder-decoder).
Знание метрик оценки для классических задач (Accuracy, F1) и генеративных (BLEU, ROUGE).
Базовое понимание LLM: что это такое, использование через API, основы промптинга (zero-shot, few-shot), настройка параметров генерации.

Навыки, которые будут плюсом:

Опыт дообучения (fine-tuning) NLP-моделей, включая базовые LLM, с использованием библиотек (Transformers, PEFT, например, LoRA).
Умение проводить аугментацию текстовых данных и организовывать процесс их разметки.
Базовое знакомство с оптимизацией инференса моделей (квантование, использование vLLM, sglang, triton, ONNX).
Понимание и практический опыт сборки RAG-систем (Retrieval-Augmented Generation): работа с векторными базами данных, поиск релевантного контекста.
Знакомство с фреймворками для создания LLM-приложений и агентов (LangChain, LlamaIndex).
Опыт работы с ASR/TTS моделями обработки аудиоданных.

Задачи:

Участие в полном цикле создания NLP-решений под руководством опытных инженеров:

Предобработка и анализ данных: сбор, очистка и разведочный анализ текстовых данных.
Разработка и эксперименты: обучение и оценка NLP моделей.
Работа с LLM: адаптация открытых LLM под конкретные задачи с помощью промпт-инжиниринга и fine-tuning, помощь в построении RAG-конвейеров, агентов.
Продукционизация: участие во встраивании моделей в пайплайны и создании прототипов сервисов (например, чат-ботов).

Процесс отбора на стажировку выглядит так:

резюме и короткая анкета в ответ;
тестовое задание объемом ~3 часа;
интервью с командой;
предложение работы.

Наши стажировки оплачиваемые, длятся 3 месяца или дольше, 30-40 рабочих часов в неделю в гибком графике.

Вы будете постепенно включаться в реальные процессы разработки ML моделей: от выполнения небольших, хорошо структурированных задач, под присмотром опытного наставника до участия в обсуждении архитектуры и принятия решений. В конце стажировки сможете работать с проектами на уровне junior+ DS, понимать бизнес-задачи и вносить осознанный вклад в развитие платформы.