Москва, Овчинниковская набережная, 18/1с1
Метро: НовокузнецкаяСейчас мы ищем стажеров на проекты по разработке, адаптации и внедрению новых NLP-решений — от классических моделей для анализа текста (поиск, рекомендации, автоматизации процессов) до современных агентских и RAG-систем для повышения эффективности производственных и бизнес-процессов.
Стек технологий:
Разработка: Python, Git, FastAPI, GitLab, Docker, Prometheus, Grafana.
ML инфраструктура: JupyterHub, MLFlow, Airflow.
ML: PyTorch, Transformers, Triton, NLTK, SpaCy.
Агенты: LangGraph, векторные БД (FAISS/Qdrant), sglang.
Данные: SQL (PostgreSQL/ClickHouse/GreenPlum), S3, Polars, Pandas, NumPy.
Процессы: Jira, Confluence.
Обязательные навыки:
Знания и умение работать с Python, ООП.
Умение работать с git.
Знание основ обработки естественного языка: токенизация, лемматизация, стоп-слова, регулярные выражения.
Понимание классических методов NLP: TF-IDF, Bag of Words, Word2Vec/FastText.
Умение работать с готовыми моделями из Hugging Face (загрузка, инференс) для базовых задач (классификация текста, NER, QA, LLM).
Понимание архитектуры Transformer и различий между типами моделей (encoder, decoder, encoder-decoder).
Знание метрик оценки для классических задач (Accuracy, F1) и генеративных (BLEU, ROUGE).
Базовое понимание LLM: что это такое, использование через API, основы промптинга (zero-shot, few-shot), настройка параметров генерации.
Навыки, которые будут плюсом:
Опыт дообучения (fine-tuning) NLP-моделей, включая базовые LLM, с использованием библиотек (Transformers, PEFT, например, LoRA).
Умение проводить аугментацию текстовых данных и организовывать процесс их разметки.
Базовое знакомство с оптимизацией инференса моделей (квантование, использование vLLM, sglang, triton, ONNX).
Понимание и практический опыт сборки RAG-систем (Retrieval-Augmented Generation): работа с векторными базами данных, поиск релевантного контекста.
Знакомство с фреймворками для создания LLM-приложений и агентов (LangChain, LlamaIndex).
Опыт работы с ASR/TTS моделями обработки аудиоданных.
Процесс отбора на стажировку выглядит так:
резюме и короткая анкета в ответ;
тестовое задание объемом ~3 часа;
интервью с командой;
предложение работы.
Наши стажировки оплачиваемые, длятся 3 месяца или дольше, 30-40 рабочих часов в неделю в гибком графике.
Вы будете постепенно включаться в реальные процессы разработки ML моделей: от выполнения небольших, хорошо структурированных задач, под присмотром опытного наставника до участия в обсуждении архитектуры и принятия решений. В конце стажировки сможете работать с проектами на уровне junior+ DS, понимать бизнес-задачи и вносить осознанный вклад в развитие платформы.
Москва
до 100000 RUR
Москва
до 100000 RUR
Москва
до 100000 RUR
non-food FMCG company
Москва
до 100000 RUR