Развивать контент-систему видеопоиска Мы непрерывно собираем информацию о видео в интернете и формируем из неё поисковый индекс, который используется для ответов пользователям. Процесс обработки видеоролика для его попадания в поиск состоит из десятков шагов — вам предстоит в них погрузиться, чтобы сделать доставку быстрее и надёжнее. У нас есть как batch-контуры на технологии MapReduce, так и real-time-процессинги, работающие с минимальными задержками, — вы сможете посмотреть на обе парадигмы.
Улучшать инфраструктуру хранения данных для ранжирования Для хорошего поиска недостаточно доставить видео до индекса — важно знать про него как можно больше информации, чтобы использовать её в ранжировании. Вам предстоит развивать инфраструктуру сбора и хранения данных, характеризующих видео, — и много работать с ML-командой для их внедрения в модели.
Поддерживать и развивать поисковый рантайм Помимо процессов построения индекса, в нашей ответственности — целый рантайм поиска, от балансировщиков до базовых сервисов кандидатогенерации. Он очень похож на устройство большого веб-поиска Яндекса, и в нашей команде у вас будет уникальная возможность посмотреть на него целиком.
Требования:
Пишете на Python или С++
Знаете алгоритмы и структуры данных
Умеете разрабатывать и обслуживать высоконагруженные сервисы
Будет плюсом: работали с базами данных, уверенно работаете с командной строкой Unix