Стажер Data Scientist (NLP)

Ecom.tech

Стажер Data Scientist (NLP)

Москва, Овчинниковская набережная, 18/1с1

Метро: Новокузнецкая

Описание вакансии

Сейчас мы ищем стажеров на проекты по разработке, адаптации и внедрению новых NLP-решений — от классических моделей для анализа текста (поиск, рекомендации, автоматизации процессов) до современных агентских и RAG-систем для повышения эффективности производственных и бизнес-процессов.

Стек технологий:

  • Разработка: Python, Git, FastAPI, GitLab, Docker, Prometheus, Grafana.

  • ML инфраструктура: JupyterHub, MLFlow, Airflow.

  • ML: PyTorch, Transformers, Triton, NLTK, SpaCy.

  • Агенты: LangGraph, векторные БД (FAISS/Qdrant), sglang.

  • Данные: SQL (PostgreSQL/ClickHouse/GreenPlum), S3, Polars, Pandas, NumPy.

  • Процессы: Jira, Confluence.

Обязательные навыки:

  • Знания и умение работать с Python, ООП.

  • Умение работать с git.

  • Знание основ обработки естественного языка: токенизация, лемматизация, стоп-слова, регулярные выражения.

  • Понимание классических методов NLP: TF-IDF, Bag of Words, Word2Vec/FastText.

  • Умение работать с готовыми моделями из Hugging Face (загрузка, инференс) для базовых задач (классификация текста, NER, QA, LLM).

  • Понимание архитектуры Transformer и различий между типами моделей (encoder, decoder, encoder-decoder).

  • Знание метрик оценки для классических задач (Accuracy, F1) и генеративных (BLEU, ROUGE).

  • Базовое понимание LLM: что это такое, использование через API, основы промптинга (zero-shot, few-shot), настройка параметров генерации.

Навыки, которые будут плюсом:

  • Опыт дообучения (fine-tuning) NLP-моделей, включая базовые LLM, с использованием библиотек (Transformers, PEFT, например, LoRA).

  • Умение проводить аугментацию текстовых данных и организовывать процесс их разметки.

  • Базовое знакомство с оптимизацией инференса моделей (квантование, использование vLLM, sglang, triton, ONNX).

  • Понимание и практический опыт сборки RAG-систем (Retrieval-Augmented Generation): работа с векторными базами данных, поиск релевантного контекста.

  • Знакомство с фреймворками для создания LLM-приложений и агентов (LangChain, LlamaIndex).

  • Опыт работы с ASR/TTS моделями обработки аудиоданных.

Задачи:

Участие в полном цикле создания NLP-решений под руководством опытных инженеров:
  • Предобработка и анализ данных: сбор, очистка и разведочный анализ текстовых данных.
  • Разработка и эксперименты: обучение и оценка NLP моделей.
  • Работа с LLM: адаптация открытых LLM под конкретные задачи с помощью промпт-инжиниринга и fine-tuning, помощь в построении RAG-конвейеров, агентов.
  • Продукционизация: участие во встраивании моделей в пайплайны и создании прототипов сервисов (например, чат-ботов).

Процесс отбора на стажировку выглядит так:

  • резюме и короткая анкета в ответ;

  • тестовое задание объемом ~3 часа;

  • интервью с командой;

  • предложение работы.

Наши стажировки оплачиваемые, длятся 3 месяца или дольше, 30-40 рабочих часов в неделю в гибком графике.

Вы будете постепенно включаться в реальные процессы разработки ML моделей: от выполнения небольших, хорошо структурированных задач, под присмотром опытного наставника до участия в обсуждении архитектуры и принятия решений. В конце стажировки сможете работать с проектами на уровне junior+ DS, понимать бизнес-задачи и вносить осознанный вклад в развитие платформы.

Навыки
  • Python
  • SQL
  • NLP
  • LLM
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Ecom.tech
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Ecom.tech
Удаленная работа
  • Москва

  • Не указана

Рекомендуем
Фитбейс
Удаленная работа
  • Москва

  • до 100000 RUR

Рекомендуем
Ecom.tech
Удаленная работа
  • Москва

  • до 100000 RUR

Домклик

Data Scientist NLP/LLM

Домклик

Удаленная работа
  • Москва

  • до 100000 RUR

СБЕР
Полный день
  • Москва

  • до 100000 RUR

Ecom.tech
Удаленная работа
  • Москва

  • до 100000 RUR

Techno Diasoft

Data Engineer (Junior)

Techno Diasoft

Полный день
  • Москва

  • до 80000 RUR

СБЕР
Полный день
  • Москва

  • до 80000 RUR

Ozon
Удаленная работа
  • Москва

  • до 80000 RUR

Удаленная работа
  • Москва

  • до 80000 RUR

Procter & Gamble
Полный день
  • Москва

  • от 100000 RUR

Полный день
  • Москва

  • до 100000 RUR

Ozon
Полный день
  • Москва

  • до 100000 RUR

Ozon
Удаленная работа
  • Москва

  • до 100000 RUR

Финансовые Информационные Системы

Стажер аналитик-проектировщик

Финансовые Информационные Системы

Удаленная работа
  • Москва

  • от 30000 RUR

Ozon
Полный день
  • Москва

  • от 30000 RUR

Арнест ЮниРусь
Удаленная работа
  • Москва

  • от 30000 RUR

Корпоративный университет Сбербанка

Data scientist Middle+

Корпоративный университет Сбербанка

Полный день
  • Москва

  • от 30000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию