Участие в процессах организации, сбора, обработки и хранение информации.
Участие в создание среды интеграции данных и pipeline(конвейеров данных) с помощью инструментов, которые обеспечивают федеративный доступ и объединяют данные из разных источников.
Участие в разработке ETL/ELT процессов для автоматизации миграции данных между учетными системами, DWH (Data Lake).
Приведение не-/структурированных данных из различных динамических источников к виду, необходимому для работы аналитиков.
Контроль и поддержка потоков данных и связанных систем (настройка мониторинга и нотификаций).
Обеспечение доступности данных в регламентированные сроки.
Организация процессов тестирования (нагрузочного/периодического) потоков данных.
Обработка ошибок и создание надёжных конвейеров обработки данных.
Поддержка документации по источникам и потокам данных в актуальном состоянии.
Требования:
Высшее техническое образование.
Уметь определять и разрабатывать архитектуру решения (порядок доступа к информации, процессы ее обработки, промежуточного хранения).
Разрабатывать и документировать алгоритмы преобразования информации из источников данных в хранилище данных.
Осуществлять верификацию/тестирование работы алгоритмов (совместно с аналитиком).
Проектировать, конструировать и обслуживать крупномасштабные системы обработки данных. При этом собирать информацию из разных источников данных, структурированных или нет.
Обрабатывать сырые данные с помощью преобразований и алгоритмов обработки данных для создания предопределенных структур данных. Сохранять результаты в хранилище данных для последующей обработки.
Преобразовывать и интегрировать различные данные в масштабируемое хранилище данных.
Понимать различные инструменты, методы и алгоритмы преобразования информации.
Внедрять технические процессы и бизнес-логику для преобразования собранных данных в значимую и ценную информацию. Эта информация должна соответствовать необходимым требованиям к качеству, управлению и соответствию для эксплуатационного и делового использования, чтобы считаться надежными.
Оценивать, сравнивать и улучшать конвейеры данных (Pipelines). Это включает в себя инновации в шаблонах проектирования, проектирование жизненного цикла данных, согласование онтологий информации, аннотированные наборы данных и подходы эластичного поиска.
Условия:
Возможность расти и развиваться в корпоративной среде, где придерживаются ценностей;
График работы 5/2 - офис, с 9-00 до 18.00;
Оформление трудовых отношений в соответствии с действующим законодательством;
Добровольная медицинская страховка или абонемент в фитнес-клуб Чехов;