Яндекс Еда — это сервис доставки еды из ресторанов и магазинов. Непростых и интересных задач у нас очень много, а цель одна: сделать лучший фудтех-продукт на рынке. В связи с расширением команды ищем дата-инженеров в команду DWH.
Служба разработки платформы управления данными (DMP) формирует актуальные, полные и правдивые данные для сервиса. Мы ищем лучших инженеров данных, которые в команде с лучшими аналитиками будут проектировать и оптимизировать сложнейшие расчёты и алгоритмы, разрабатывать инструментарий для сотен бизнес-пользователей.
Какие задачи вас ждут:
- Оптимизировать нетривиальные ETL-процессы обработки больших данных
- Извлекать из исходных данных ценную информацию и скрупулёзно обрабатывать её для последующего анализа
- Работать с данными на каждом этапе их трансформации: от появления информации в конкретном источнике до монетизации полученных знаний
- Реализовывать стабильный расчёт бизнес-метрик вместе с командой аналитиков
- Поддерживать и модифицировать созданные решения, обеспечивать доступность сервиса и корректность данных для принятия решений
Мы ждем, что вы:
- Уверенно программируете на Python
- Разбираетесь в классических алгоритмах и структурах данных
- Работали с отладчиками и верификаторами
- Хорошо знаете SQL и понимаете устройство современных реляционных баз данных
- Понимаете и можете объяснить необходимость непрерывной интеграции и непрерывной доставки (CI/CD), преимущества использования Git и ревью кода
Будет плюсом, если вы:
- Руководили стажёрами или начинающими специалистами
- Работали по методологии Agile
- Участвовали в проектировании хранилищ данных
- Знакомы со стеком технологий Hadoop, Spark, Hive
- Создавали сложные высоконагруженные процессы ETL и ELT (отдельным плюсом будет знание инструментов Luigi и Airflow)
- Разрабатывали процессы обработки сложных событий (CEP) во времени, приближенном к реальному (Kafka Streams, Spark, Flink)
- Работаете со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata) и аналитическими инструментами на базе Python (Jupyter, pandas, SciPy, Matplotlib, Bokeh)
- Программируете на C++
- Размещаете в публичных репозиториях свой код или статьи с примерами работ