Про позицию:
Сейчас мы в поиске Ведущего инженера по управлению системами хранения данных, который в составе ML команды будет участвовать в передовом для компании направлении по развитию Поиска маркетплейса и усилит всю практику MLE в компании. Сотрудник будет вовлечён в продуктивизацию классических NLP решений, решений реранжирования, векторного поиска и иных сервисов, часто используемых в системах поиска.
Наши ожидания:
- Высшее образование;
- Стаж работы по профилю не менее 2 лет;
- Python - экспертный уровень;
- Python: Асинхронность, многозадачность и многопроцессность - экспертный уровень;
- Code-review - экспертный уровень;
- Базы данных: РБД - экспертный уровень;
- Базы данных: NO SQL - экспертный уровень;
- Тестирование - экспертный уровень;
- Git - экспертный уровень;
- Архитектура - высокий уровень;
- Поддержка сервисов - экспертный уровень;
- Деплой - высокий уровень;
- Airflow - экспертный уровень;
- Создание ML сервисов - экспертный уровень.
Команда занимается:
- Участием в проектировании решений (system design'ах), помощью в выявлении системных и структурных ограничений.
- Оборачиванием решения от DataScience в полноценные сервисы, которые должны работать стабильно, эффективно и правильно на основе существующих фреймворков и подходов.
- Интеграцией с внешними инструментами и сервисами, подключением баз данных, рефакторингом качества кода.
- Формированием и развитием шаблонов продуктивизации, существующих фреймворков и подходов.
- Деплоем своих сервисов: сборка образов, понимание инфраструктуры компании, сервисы в k8s.
- Автоматизацией рутинных задач обработки данных.
- Интеграциями и мониторингом данных: участие во внедрении данных в ML-пайплайны. Настройка базового мониторинга качества входящих и обработанных данных, алертинга о проблемах. Помощь в диагностике проблем данных/пайплайнов в продакшене.
- Аккумулированием технической экспертизы на несколько продуктов, разработкой общих решений.
Стек команды:
- разработка: Python 3.12, FastAPI, PySpark, pytest, docker;
- данные: PostgreSQL, Greenplum, Clickhouse, HDFS, faiss;
- мониторинги и логи: VictoriaMetrics, VictoriaLogs, Grafana;
- задачи: Jira, Confluence;
- инфраструктура: Airflow, Kafka, Kubernetes, GitLab, Argo CD