В SberData мы создаем централизованное хранилище данных. Сбер сегодня обладает одним из крупнейших в стране хранилищ данных - объем данных банка превысил 250 ПБ. За секунду с нашими данными совершается около 500 тысяч транзакций. Управляет данными Сбера департамент SberData: нашими решениями пользуются свыше 22 тысяч сотрудников банка и экосистем. Мы разрабатываем продукт DataChat, который предоставляет сервисы подготовки метаданных для AI-ready хранилищ, поиска метаданных и извлечения данных на основе ЕЯ-запросов. Это позволит получать доступ к данным корпоративной аналитической платформы для AI-агентов и интеллектуальных помощников.
Используемые технологии: Python, Langchain / Langgraph, OpenSearch, RAG, graph search, Jenkins, OpenShift.
Задачи:
- анализ, проектирование, разработка интегральных метрик сравнения контекстов поиска (метрика близости, схожести и тд областей метаданных)
- анализ, проектирование, разработка метрик качества метаданных относительно точности поиска
- анализ, проектирование, разработка типов проверок качества метаданных относительно точности поиска
- анализ методов, проектирование и тестирование инструментов обогащения метаданных на основе документации и других источников
- исследование методов оптимизации точности и НФТ путем использования методов NLP, NER, SLM и других альтернатив.
Мы ожидаем:
- опыт работы 3-5 лет на позиции Data scientist в IT-команде, работающей по гибким методологиям: Scrum, Kanban
- опыт анализа, проектирование и разработки инструментов на основе методов\технологий NLP, NER
- знания и опыт использования существующих продуктов\инструментов NLP, NER, etc. (nltk, pymorphy2/3, SpaCy, natasha, etc.)
- опыт обучения собственных языковых моделей на основе предобученых (BERT, разные типы реккурентных моделей, etc.).
Будет плюсом:
- понимание принципов работы и опыт построения использования полнотекстовых индексов
- теоретические знания и опыт работы с графовыми платформами (Spark GraphX, Neo4J, NetworkX)
- опыт построения таксономий и онтологий
- опыт в моделировании логических моделей данных.
Мы предлагаем:
- комфортный современный офис: БЦ Даниловский форт, рядом с М.Тульская, Верхние котлы
- возможность выбрать удобный график – офис/гибрид
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.