Как работают асессоры Яндекса

26.02.2013

Ольга Мегорская, руководитель службы асессоров, в докладе «Качество поиска: экспертные оценки и исследование пользовательского поведения» рассказывает о службе качества поиска, о том, чем занимается группа.

Оценка качества поиска. Для чего нужно оценивать качество выдачи? Как известно, в компании Яндекс работают многие разработчики, предлагающие новые «фичи», новые алгоритмы поиска. У разработчика есть десяток любимых запросов, на которых он проверяет свой алгоритм, и все классно работает. Но любой алгоритм требует объективной и корректной оценки со стороны. И не на десяти любимых запросов, а на довольно большой выборке случайных запросов. Именно этим занимаются асессоры - они оценивают качество поиска с точки зрения пользователя. Если «фича», новый алгоритм действительно улучшает выдачу по одному классу, надо следить, чтобы «не уронить» все остальное.

Что нужно для того, чтобы оценить качество поиска с точки зрения пользователя?

  • пользовательские оценки качества выдачи;
  • формализованные метрики качества;
  • человеческое, а не машинное понимание пользователя.

Асессоры - обычные люди. Они присутствуют в каждом регионе. В компании Яндекс всегда стремятся учитывать оценки местных - региональных - пользователей, потому что именно они как никто другой понимают местную специфику Интернета, что хотят люди не только в России, и конечно же большую роль играет знание языка выдачи. К примеру, команда Яндекса работает в Казахстане несколько лет.

Как работают асессоры?

  • выбирают случайные запросы из потока данных;
  • оценивают документы/страницы, найденные по запросам;
  • выносят оценки качества выдачи.

Асессоры работают удаленно, находясь дома. Они получают случайно выбранные запросы и реального общего потока запросов. По этим запросам выкачивают выдачу и отдают асессору. Они оценивают, насколько хороши те или иные документы и отвечают ли они реальным запросам. Оценивание ведется по специальной шкале релевантности.

Шкала релевантности выглядит так:

  • оценка vital - для тех сайтов, которые жизненно необходимы, однозначно должны быть на первых местах;

Съешьте это немедленно!

оценка useful - получен авторитетный, полный ответ;

Берите! Полезный продукт!

оценка relevant «плюс» - в целом отвечает на запрос;

Ловите нужное!

оценка relevant «минус» - имеет отношение к запросу пользователя, но отвечает не в полной мере;

Яблочное?

оценка irrelevant - результат выдачи не отвечает на запрос.

Какое яблоко без «клубнички»...

В группу vital обязательно входят официальные сайты, которые никак нельзя пропускать. В группе useful состоят авторитетные, известные источники. Релевантные документы в некоторых случаях могут напрямую не отвечать на запрос, но могут дать представление о предмете запроса, имеют отношение к запросу. Видя в выдаче один релевантный документ, пользователь вряд ли сможет получить полный ответ на свой запрос, но, видя несколько релевантных документов, он получает более-менее широкое представление о предмете запроса.

Для чего используются оценки, собранные асессорами?

  • для тонкой подстройки поисковых алгоритмов;
  • для определения оценки качества поиска.

Это две одни из самых важных вещей в поиске.

Настройка поиска.

Робот обучается различать «хорошие» и «плохие» страницы. К примеру, есть две неких группы - яблоки и груши со своим набором качеств: цвет, вкус и форма.

Роботу предстоит разделить большой объем фруктов на яблоки и груши. Разработчик дает роботу обучающие подмножества - набор дополнительных качеств. Робот ищет закономерности, характеризующие тот или иной фрукт. Все зеленое, кислое и круглое, группируется в «яблоки», а все овальное, сладкое и красное - в «груши».

Когда в дальнейшем робот берет из корзины непонятный фрукт, он сразу может оценить его по типу признаков. И все идет хорошо, пока в корзине с фруктами не появляется некий красный вытянутый кислый предмет - то ли яблоко, то ли груша.

Ямбу!

Тогда робот начинает изучать предмет глубже, например, по ДНК. Поэтому, чтобы не сталкиваться с проблемами при оценке ресурса, робот обучается множественным оценкам, и это множество составляется людьми.

Аналогичный процесс идет с оценкой релевантности документов.

  • робот располагает своим наборов поисковых алгоритмов;
  • асессоры дают свои оценки;
  • в Вебе робот ищет суммарные закономерности;
  • в случае затруднения, робот подключает для оценки следующие факторы: в документе Х есть запросы, на документ группы «Х» кликают и на него ссылаются другие ресурсы Веба. Вероятно, документ группы «Х» релевантен.

Итак, робот обходит Веб, автоматически собирает признаки документов - тексты, запросы, рядом запросы или разбиты по тексту, в заголовке и в теле текста, кликовые признаки - насколько часто кликают по ссылкам на тот или иной документ, если есть линковые факторы, то по каким запросам ссылаются на этот документ, и пр. Это все робот собирает автоматически.

С другой стороны, есть оценки асессоров. Асессоры ничего не знают про факторы, они просто смотрят на документ с точки зрения пользователя - хороший это ответ на запрос или нет. Робот ищет закономерности. Для любого неоцененного документа в Сети робот ищет знакомые факторы. Возвращаясь к овальному красному кислому яблоку, можно сказать, что для оценки документа группы «Х» нужно много факторов. Поэтому очень много людей непосредственно занимаются тем, что изобретают и предлагают разные факторы оценки релевантности. Обучение робота идет на реальных примерах - на реальном потоке запросов. Этот поток запросов асессорам никто не продает, его никто не придумывает, берутся только реальные запросы, которые приходят в Яндекс каждый день.

Метрики оценки качества поиска

Одной из рабочих, базовых метрик является метрика Pfound - «вероятность пользователя найти ответ».

Пример Pfound. Есть две выдачи в 2 столбцах для сравнения.

1 столбец

2 столбец

vital

vital

relevant «плюс»

relevant «плюс»

relevant «плюс»

relevant «минус»

relevant «минус»

relevant «плюс»

irrelevant

irrelevant

Как вы думаете, какая из этих выдач лучше? Мы считаем, что левая метрика лучше, потому что более хорошие документы скомпонованы выше.

Метрика Pfound выстраивается на такой схеме пользовательского поведения:

Выдвигается гипотеза поиска

Пользователь продвигается сверху вниз и просматривает все документы, один за одним.

Пользователь останавливается, если: нашел, устал.

Недавно была внедрена так называемся «опечаточная врезка», был приятный хороший скачок, никто не понял, почему, а мы знаем, почему поиск сразу выдал гораздо большее число документов. «Опечаточная врезка» - это изменение алгоритма обработки запросов с опечатками.

Метрика Pfound - очень хорошая, но, к сожалению, она не может уловить все особенности пользовательского спроса. Одна из ключевых проблем, с которыми пока не справляется метрика Pfound, это проблема разнообразия выдачи. Если мы сравним выдачу по запросу «название фильма», то выдача состоит и из рецензий на фильм, и из сайтов, где можно его скачать, и из афиш кинотеатров. В обывательском смысле, более полезной будет вторая выдача, но нашим специалистам кажется, что выдача должна быть более разнообразной, раз нет контекста к запросу - в каком контексте ведется поиск, что именно хотел пользователь. Потому вместе с метрикой Pfound мы используем ряд других полезных метрик.

Разнообразие выдачи - любопытная вещь, и бывает разнообразие нескольких типов

Например, под словом «наполеон» ищут разные объекты - императора и торт, причем торт ищут чаще в связи с наступлением праздников

Или другой пример - ищут объект, но связывают с ним разные потребности. Запрос - название фильма. Если фильм старый, его чаще хотят скачать или смотреть онлайн, про новые фильмы, которые идут в прокате, ищут трейлеры, рецензии, о будущих фильмах нужна более общая информация, скачать никто не пытается.

Эти примеры говорят, как сложно роботу понимать то, что хотят пользователи. Невозможно без дополнительных объективных данных понять, что у пользователя в голове, когда он отправляет запрос. Поэтому ведется исследование пользовательского поведения:

  • сессии отдельного пользователя;
  • переформулировки своего запроса и клики на какие сайты были сделаны;
  • эксперименты на выдаче - это использование экспериментального алгоритма на неком числе пользователей - n%; выявление доли некликнутых результатов, если пользователь нашел ответ прямо в сниппете - маленькой информации о сайте, определение позиции первого клика - насколько выше оказался нужный документ, и другие метрики, выявляющие, хороший это был эксперимент или нет. Кстати, по поводу снипеттов. Когда выкатили алгоритм, индексирующий сниппеты с информацией о компании - телефоны, эл.адрес, в Яндекс стали звонить расстроенные веб-мастера с обидой - почему на мой сайт перестали кликать, если позиции его не упали. В выдаче все хорошо, а заходов нет. И получилось так, что с точки зрения пользователя мы сделали все хорошо - он сразу все видит на странице выдачи, а результаты по продвижению сайта в глазах заказчика упали.
  • классификация запросов.

Выделение тематик запросов.

  • отбор интересующих групп пользователей;
  • составление автоматического классификатора запросов;
  • изучение результатов - анализ распределения разных тематик поисковых запросов для неодинаковых групп пользователей.

К примеру, можно выделить запросы, которые больше интересуют владельцев «андроидов» и владельцев «айфонов».

Владельцев «андроидов» больше интересуют тематики: информатика и информационные системы, эротические игры, электронная музыка, архивы программ, дачи и коттеджи, unix, экранные заставки, приложения, веб-программирование, операционные системы, форумы, чаты, софт, компьютерные игры, русификаторы, трейлеры, патчи.

Владельцев «айфонов», и это довольно любопытно, чаще интересуют: прически и салоны красоты, алкогольные напитки, свадьбы, тосты и сценарии, литература, зарубежная проза, боди и нейл-арт, доставка цветов, кондитерские изделия, лошади, конный спорт, бизнес-образование, визы и паспорта, подготовка водителей, обувь.

Это не значит, что все владельцы «айфонов» ищут салоны красоты, но можно сделать предположения о типичности запросов и использовать в маркетинговых целях.