Web scraping вашего сайта: непрошеные гости и как их встречают Обзор текущей ситуации

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Автоматизированный сбор открытых данных с веб-ресурсов, он же парсинг, он же web scraping, он же краулинг... — как его ни назови, имеется в виду один и тот же процесс: бот представляется пользователем-человеком и берет/кладет что-то на веб-сайт, обычно с высокой частотой и с большого количества источников. Рано или поздно это затронет и ваш ресурс: как может выглядеть эта активность и как она влияет на важные метрики?

В своем докладе я хочу разложить по полкам популярные инструменты веб-скрэпинга, проследить их развитие до актуального состояния и объяснить подходы, которые применяются для обнаружения и предотвращения работы этих инструментов. Мы затронем следующие темы:
* Сбор данных с помощью Python: requests, Scrapy. Как стать скрэпером за 2 минуты?
* Эволюция headless browser automation в скрэпинге: PhantomJS, Selenium, Puppeteer, Playwright.
* Использование headful-браузеров, OCR и человеческого труда: есть ли граница между человеком и автоматом?
* Защитные меры: когда есть смысл их применять, как при этом не навредить целевой аудитории.

Георгий Тарасов

Qrator Labs

Руководитель проектного отдела. Выпускник ВМиК МГУ, занимался программированием для суперкомпьютеров с использованием MPI и OpenMP. С 2012 года работает в Qrator Labs, сначала писал на Python, затем занялся проектной работой и pre-sale. Отвечает за дизайн и внедрение схем обеспечения доступности сервиса у заказчиков и партнёров.