Мы приступаем к реализации большого проекта по созданию цифровой платформы обеспечения экологической, гидрометеорологической и ледовой безопасности морских операций.
Мы ищем инженера данных, который поможет нам упорядочить и осмыслить все многообразие наших данных. А это экологические данные (например, концентрация фитопланктона в точке или на участке моря, уровень загрязнений воды, количество встреч морских млекопитающих вдоль маршрутов судов), а также гидрометеорологические и географические данные. Многие из них имеют временную и пространственную привязку, поэтому важно выстроить систему, где эти связи сохраняются и позволяют проводить комплексный анализ.
Нам нужно не только разработать оптимальную схему хранения данных (мы сейчас видим комбинацию SQL и документных баз, но будем рады идеям нашего нового коллеги), но и создать алгоритмы стандартизации и контроля качества данных.
Работать предстоит в тесной связке с профильными специалистами, которые отлично знают свои наборы данных и заинтересованы в конечном результате.
Чем предстоит заниматься:
- Проектирование, разработка и поддержка ETL/ELT процессов для наполнения централизованной базы экологических и гидрометеорологических данных.
- Консолидация данных из разнородных источников: результаты полевых работ, пространственные данные (векторные, растровые), данные реанализов и гидрометеорологических прогнозов, отчетные материалы.
- Работа с геопространственными данными (форматы SHP, GeoJSON, GeoTIFF, KML, NetCDF).
- Реализация обработчиков данных для расчета статистик, индексов, контроля качества данных, формирования отчетности.
- Интеграция с внешними геоинформационными сервисами (WMS, WFS).
- Разработка и реализация оптимальной схемы хранения данных (соотношение скорость доступа, объема хранения и стоимости), в том числе с использование нескольких типов баз данных и объектных хранилищ (S3).
Что мы хотим видеть в кандидате: - Релевантный опыт работы.
- Глубокие знания Python и библиотек для анализа данных (Pandas, NumPy) и работы с пространственными данными (GeoPandas, Rasterio).
- Опыт проектирования и оптимизации баз данных (PostgreSQL/PostGIS, Clickhouse).
- Опыт построения и поддержки ETL-пайплайнов.
- Практический опыт работы с геоинформационными технологиями и пространственными данными (желательно).
- Опыт работы с облачными платформами (в частности, Yandex Cloud) будет плюсом.
Что мы можем предложить: - Официальное оформление по ТК РФ.
- 40-часовая рабочая неделя с двумя выходными днями (суббота и воскресенье), график работы с 10.00 до 19.00 (по согласованию возможно изменить время начала/окончания ежедневной работы).
- Гибридный график работы и/или полностью дистанционная работа.
- Оплачиваемый отпуск 28 календарных дней, оплачиваемые больничные, ДМС со стоматологией по корпоративной программе.
- Увлеченные работой коллеги и экспертное руководство.
- Возможность развития, обучения и участия в профессиональных мероприятиях.