Обязанности: - Сбор и анализ требований: Сбор и документирование требований к данным от заинтересованных сторон, включая анализ текстовых данных (например, пользовательские запросы, логи, документы), определение и анализ пробелов в данных.
- Разработка и реализация решений: Разработка и реализация решений для сбора, очистки, преобразования и загрузки данных в хранилище данных.
- Анализ данных и создание витрин данных: Глубокий анализ текстовых и структурированных данных для выявления паттернов, закономерностей и аномалий. Классификация текстовых данных по категориям на основе выявленных признаков (например, тематическая группировка, семантический анализ). Создание витрин данных с акцентом на агрегацию и категоризацию информации.
- Моделирование данных: Разработка моделей данных, включая методы для работы с текстовыми источниками (например, схемы для хранения метаданных категорий). Обеспечение качества данных через валидацию и нормализацию текстовых полей.
- Управление метаданными: Управление метаданными хранилища данных, включая документацию, классификацию и определение правил управления данными.
- Поддержка пользователей: Оказание поддержки пользователям хранилища данных в использовании и интерпретации данных, а также предоставление рекомендаций по улучшению использования данных.
- Сотрудничество с заинтересованными сторонами: Тесное сотрудничество с заинтересованными сторонами в различных отделах для понимания их потребностей в данные и предоставления соответствующих аналитических решений.
Требования: - Степень бакалавра/магистра в области компьютерных наук, лингвистики,
- Сильные аналитические и количественные навыки
- Опыт анализа текстовых данных (NLP): токенизация, классификация, извлечение сущностей
- Знание SQL, Python (библиотеки:Pandas, NLTK, spaCy, dbt), R
- Опыт обработки данных в форматах: Parquet, ORC, Avro, XML, CSV/TSV, джейсон
- Знание и опыт работы с ETL/ELT, Apache Spark, Apache Airflow, Apache Kafka и Debezium или других инструментов для change data capture (CDC), gitlab
- Понимание методологий проектирования БД (Data Vault, Anchor Modeling) и NoSQL-решений для хранения текстовых данных
- Глубокое понимание концепций, технологий и методологий построения хранилищ данных
- Опыт работы с инструментами визуализации данных и бизнес-аналитики
- Отличные коммуникативные и межличностные навыки
- Умение документировать процессы категоризации и паттерны
- Опыт написания Технических Заданий
Дополнительные желательные требования (будет плюсом):
- Сертификация в области анализа данных или хранилищ данных Data Science или смежных дисциплин.
- Опыт работы с большими данными и облачными технологиями
- Знание и опыт методов машинного обучения и искусственного интеллекта (ИИ)
Условия:
- Формат работы: удаленный или в офисе (Нижний Новгород)
- Полис ДМС;
- Возможность профессионального развития и карьерного роста, профессиональная команда.
- Уровень вознаграждения обсуждается индивидуально с успешным кандидатом.
- Оформление по ТК РФ.