МТТЕХ - центр разработки Московского транспорта.
Мы создаём ИТ-решения, которыми ежедневно пользуются миллионы пассажиров: от оплаты и планирования маршрутов до беспилотного трамвая
Наш технологический стек:
- S3 / S3-compatible storage
- Trino
- Parquet
- Superset, Grafana
- Оркестрация (Airflow / Argo Workflows)
- Интеграция с системами телеметрии автономного транспорта
Что предстоит делать:
- Проектировать и развивать Data Lake / DWH с нуля или через серьёзный рефакторинг
- Строить и сопровождать ETL/ELT-процессы
- Разрабатывать стандарты построения пайплайнов
- Внедрять практики Data Quality и обеспечивать целостность данных
- Оркестрировать и оптимизировать пайплайны
- Работать с большими объёмами данных (5000+ Тб масштаб)
- Оптимизировать аналитические запросы и производительность хранения
- Принимать архитектурные решения и понимать их trade-offs
Требования:
- 5+ лет в Data Engineering
- Опыт проектирования DWH / Data Lake
- Опыт администрирования Hadoop: Spark/HDFS/Airflow/Hive
- Продвинутый SQL
- Опыт построения ETL/ELT-процессов
- Работа с S3 или S3-compatible storage
- Понимание distributed storage и columnar форматов (Parquet)
- Опыт оптимизации аналитических запросов
- Работа с большими объёмами данных (TB/PB scale)
Будет плюсом:
- Trino / Presto
- Lakehouse-подход (Iceberg / Delta / Hudi)
- Внедрение Data Quality framework
- Опыт построения data-platform как продукта
Работа у нас это:
-
Забота о здоровье без лишней бюрократии (комфортный пакет ДМС)
-
Энергия, которая не заканчивается на дейликах (компенсация спорта)
-
Рабочий день начинается с завтрака за кофе (компенсация питания)
-
Дорога до офиса и обратно без лишних трат (компенсация проезда на пассажирском транспорте)
-
Дополнительные дни для перезагрузки (5 day-off в год)
-
Аккредитованная ИТ-компания