РИТ++ 2017 завершён!

Применение машинного обучения для генерации структурированных сниппетов в поисковых системах по трудоустройствуМашинное обучение

Доклад принят в программу конференции
Никита Спирин
Datastars

PhD in Computer Science (University of Illinois at Urbana-Champaign), MS/BS in Applied Maths and Physics (Moscow Institute of Physics and Technology), Co-founder and Chief Data Scientist (Datastars.co), Senior Partner (Church & Duncan Machine Learning Consulting Group), over 10 years of experience with machine learning, search engines, and social computing (Facebook, Yandex, Ok, Superjob), marathoner and professional youth hockey player back in the glory days.

Тезисы

Идеальная поисковая система должна возвращать упорядоченный по убыванию релевантности список результатов. Однако, это не всегда получается из-за сложности естественного языка, неоднозначности в запросах, вариативности личных предпочтений пользователей. Как следствие, релевантный результат может находиться на любой позиции на странице поисковой выдачи.

Чтобы помочь пользователям быстрее находить релевантные результаты, поисковые системы показывают на странице результатов ссылки и краткие описания результатов (2-3 строчки), называемые сниппетами. Сниппеты позволяют различать результаты друг от друга, таким образом помогая минимизировать просмотры повторяющейся информации, и определять релевантность каждого отдельного результата. Если же сниппеты неинформативны, пользователи вынуждены просматривать все результаты один за другим и терять ценное время. Например, таковыми являются сниппеты многих ведущих поисковиков работы --- они содержат лишь должность и место работы, опуская важную информацию о требованиях, обязанностях, навыках и др.

В данном докладе мы представим новый расширенный структурированный формат сниппетов для поисковиков работы и расскажем о подходе к генерации таких сниппетов методами машинного обучения. Мы опишем весь процесс от возникновения идеи до внедрения. В частности, мы начнем с юзер-исследования, направленного на выявление важных для соискателей атрибутов о работе. Далее, мы разберем дешевый и простой способ порождения обучающего множества для машинного обучения, основанный на наблюдении о структуре вакансий, а также опишем непосредственно сам процесс машинного обучения, модель алгоритмов, и уникальные "хаки". В заключение, мы представим результаты оффлайн эксперимента и онлайн A/B-теста.

Фронтенд / другое
,
API
,
Python
,
Поисковые системы
,
Бэкенд / другое
,
Нагрузочное тестирование
,
A/B-тестирование
,
Machine Learning

Другие доклады секции Машинное обучение