РИТ++ 2017 завершён!

TDI: высокочувствительная метрика для A/B экспериментов с поискомТестирование, A/B-тестирование

Доклад принят в программу конференции
Роман Поборчий
JetBrains

В числе мест работы Романа — Sun Microsystems, где он делал Java; Intel, где он опять делал Java (проект Apache Harmony, части которого впоследствии были включены в платформу Android) и Яндекс, где он занимался оценкой качества поиска, в том числе и пользовательскими экспериментами. С середины 2015 года Роман изменил род деятельности и занимается тренингами по презентациям для IT'шников, но накопленный опыт-то никуда не девается, и поделиться им хочется.

Тезисы

Задача правильно отранжировать контент, который есть на сайте, встречается часто. Многие магазины, сайты с вакансиями, агрегаторы новостей в последнее время стали понимать, что показывать пользователю объекты в случайном порядке или в хронологическом порядке их появления в базе недостаточно, и улучшают свои алгоритмы поиска и ранжирования.

Однако проверить более высокую эффективность нового алгоритма экспериментом оказывается непросто: разрешающая способность классических метрик A/B-тестирования часто недостаточна, чтобы увидеть результат работы нового алгоритма.

В веб-поиске алгоритмы, смешивающие результаты двух ранжирований незаметно для пользователя, известны в узких кругах с 2008 года, однако опыт общения с разработчиками на конференциях говорит, что за пределы поисковых компаний это знание не выбралось. Это упущение хочется исправить.

В докладе я рассмотрю уже ставший классическим алгоритм Team-Draft interleaving, дающий возможность проводить эксперименты на пользователях поиска и получать высокую значимость при сравнительно небольших объёмах данных. Также я расскажу о нескольких проблемах, с которыми столкнулся при эксплуатации этого алгоритма, и об их решениях.

Алгоритмы и их сравнение

Другие доклады секции Тестирование, A/B-тестирование