Москва, Наставнический переулок, 17с1
Метро: ЧкаловскаяПривет! Мы — Genotek, молодая и современная medtech компания. Работаем с технологиями будущего: проводим исследования, которые помогают людям узнать всё про свои гены, происхождение и особенности здоровья.
Сейчас мы находимся в поиске опытного инженера данных, который возьмет на себя разработку и внедрение масштабируемой системы обработки событий (event processing pipeline). Вам предстоит построить отказоустойчивую платформу для сбора, трансформации и анализа данных.
Чем предстоит заниматься:
Мониторинг, оптимизация и масштабирование баз данных (MySQL, ClickHouse): анализ медленных запросов, настройка индексов, планирование и реализация партиционирования и шардинга.
Полный цикл разработки витрин данных: от проектирования и рефакторинга существующих до создания новых. Очистка сырых данных, дедубликация, оптимизация ETL-процессов.
Интеграция данных из внешних источников (Яндекс.Метрика, Roistat и др.) через API: обеспечение отказоустойчивости, обработка ошибок, retry-логика, валидация и обеспечение качества и полноты данных.
Разработка, поддержка и оптимизация сложных данных пайплайнов в Apache Airflow (создание новых DAG).
Подготовка и поддержание актуальной технической документации: схемы данных, дата-словари, описание витрин и ETL-процессов.
Участие в процессе разработки: code review, работа по Git Flow, внедрение и соблюдение стандартов кодирования.
Опыт коммерческой разработки в роли Data Engineer от 3-х лет (для Middle) и от 5-ти лет (для Senior).
Продвинутый SQL: глубокое понимание и большой опыт написания и оптимизации сложных запросов.
Опыт работы с СУБД:
MySQL: знания по оптимизации производительности (индексы, анализ execution plan).
ClickHouse: понимание специфики column-oriented БД
Сильный Python для ETL: опыт написания надежного и эффективного кода для данных пайплайнов (библиотеки: pandas, SQLAlchemy, requests и т.д.).
Глубокое знание Apache Airflow: опыт создания сложных, отказоустойчивых и идемпотентных DAG, использование сенсоров, хуков, XCom.
Опыт построения и поддержки DWH/витрин данных: понимание принципов dimensional modeling (звезда, снежинка), типов таблиц (факты, измерения).
Навыки работы с API: опыт интеграции с различными REST API (пагинация, ограничения, обработка ошибок, retry-механизмы).
Приверженность best practices: уверенная работа с Git (Git Flow), обязательный опыт проведения code review, понимание принципов CI/CD.
Опыт построения инфраструктуры данных с нуля (greenfield project).
Знание концепций и инструментов обеспечения Data Quality (валидация, мониторинг аномалий).
Опыт работы с контейнеризацией (Docker) и оркестрацией (Kubernetes).
Базовое понимание WEB-технологий (React/Angular) на уровне, достаточном для взаимодействия с фронтенд-разработчиками.
Знание облачных платформ (Yandex Cloud, AWS) и их сервисов для данных.
Что мы предлагаем:
Оформление по ТК РФ и его полное соблюдение (оплачиваемые отпуска, больничные), бонусы работы в аккредитованной IT-компании;
Формат работы: удалённый, но при желании можно ходить в офис в Москве или в Питере (в Питере можно ходить в офис в ИТМО или на Пионерской)
ДМС, занятия английским в Skyeng, психологические консультации от сервиса Youtalk и Генетический паспорт Genotek для всех сотрудников;
Дружную команду и уважительное отношение к инициативе
Москва
Не указана
Москва
Не указана