Дата-сайентист (Data Collection Engineer, Web Scraping / Automation)

Описание вакансии

О проекте
Мы создаём B2B data-платформу для глубокой аналитики компаний. Наш продукт агрегирует данные из сотен открытых источников и преобразует их в ценные бизнес-сигналы: найм ключевых сотрудников, смена технологического стека, инвестиционные раунды, запуск новых продуктов и другие триггеры роста.
Наша цель — предоставлять Sales-командам, инвесторам и аналитикам инструмент для мгновенного выявления перспективных компаний на стадии активного роста.

Чем предстоит заниматься:

Проектирование и разработка пайплайнов для сбора данных о компаниях.
Настройка парсинга (web-scraping) сайтов, каталогов и публичных реестров.
Интеграция данных через внешние API.
Очистка, нормализация и структурирование необработанных данных.
Дедупликация компаний и умное объединение записей из множества источников.
Автоматизация процессов регулярного обновления данных.
Подготовка структурированных датасетов для аналитики и машинного обучения.

Источники данных
В работе мы используем открытые данные:

Корпоративные сайты и лендинги
Страницы вакансий и карьерные порталы
Бизнес-каталоги и маркетплейсы
Стартап-базы (Crunchbase, AngelList и др.)
Технологические данные сайтов (Wappalyzer, BuiltWith)
Публичные реестры юридических лиц

Ключевые требования:

Уверенный опыт веб-парсинга (Web Scraping) любой сложности.
Глубокое знание Python и стека инструментов: requests, Scrapy, Playwright/Selenium.
Опыт интеграции и работы с REST API / GraphQL.
Понимание устройства реляционных и NoSQL баз данных.
Знание принципов построения надежных Data Pipelines (ETL/ELT).

Будет большим плюсом: