РИТ++ 2017 завершён!

TDI: высокочувствительная метрика для A/B экспериментов с поискомТестирование, A/B-тестирование

Доклад принят в программу конференции
Роман Поборчий
Независимый эксперт

Работал:
* в разработке в Sun Microsystems, где делал Java;
* в Intel, где опять делал Java (проект Apache Harmony, части которого впоследствии были включены в платформу Android);
* в поиске Яндекса, где оценивал качество поиска, в том числе и пользовательскими экспериментами;
* занимался маркетингом в JetBrains и аналитикой данных во ВК.

С середины 2015 года Роман изменил род деятельности и занимается тренингами по презентациям для IT'шников и подготовкой докладов на технологических конференциях. За это время успел поработать более чем с двумя тысячами спикеров. Накопленный опыт никуда не девается, и поделиться им хочется.

Тезисы

Задача правильно отранжировать контент, который есть на сайте, встречается часто. Многие магазины, сайты с вакансиями, агрегаторы новостей в последнее время стали понимать, что показывать пользователю объекты в случайном порядке или в хронологическом порядке их появления в базе недостаточно, и улучшают свои алгоритмы поиска и ранжирования.

Однако проверить более высокую эффективность нового алгоритма экспериментом оказывается непросто: разрешающая способность классических метрик A/B-тестирования часто недостаточна, чтобы увидеть результат работы нового алгоритма.

В веб-поиске алгоритмы, смешивающие результаты двух ранжирований незаметно для пользователя, известны в узких кругах с 2008 года, однако опыт общения с разработчиками на конференциях говорит, что за пределы поисковых компаний это знание не выбралось. Это упущение хочется исправить.

В докладе я рассмотрю уже ставший классическим алгоритм Team-Draft interleaving, дающий возможность проводить эксперименты на пользователях поиска и получать высокую значимость при сравнительно небольших объёмах данных. Также я расскажу о нескольких проблемах, с которыми столкнулся при эксплуатации этого алгоритма, и об их решениях.

Алгоритмы и их сравнение

Другие доклады секции Тестирование, A/B-тестирование