Как работают асессоры Google

Беседовал Скотт Хуффман, руководитель команды оценки поиска Google

Чем занимается команда оценки качества поиска?

Мы стараемся измерить, насколько хорошо работает поиск Google по всем параметрам, которые мы только можем представить. И мы делаем это, оценивая разные типы запросов: около ста видов локальных запросов с уточнением страны и языка, запросы разной длины и различной частотности, транзакционные и информационные запросы. Мы также оцениваем, насколько качественен поиск по этим запросам вне Америки, в Швейцарии и Франции, например.

И мы оцениваем качество двумя способами. Один процесс идет постоянно – мы хотим знать, как меняется качество поиска со временем, и мы отслеживаем результаты поиска по выбранной группе запросов. Второй процесс включается, когда нашей команде необходимо оценить изменения, которые произошли с поиском после введения конкретных мер по улучшению поиска

Можете объяснить мне, как вы подходите к оценке качества поиска?

Мы используем два способа для оценки качества поиска. Во-первых, у нас есть асессоры по всему миру, для которых мы разработали систему оценки. Это происходит так: Вот запрос, вы говорите на французском и живете в Швейцарии, вот урл. Оцените по определенной шкале, насколько урл релевантен для этого запроса, или заполните такую-то форму.

Во-вторых, мы экспериментируем с нашими пользователями. Один из типичных примеров такой оценки поиска – это изменение интерфейса поиска. Всегда сложно определить, как пользователи отнесутся к изменениям в интерфейсе.

Как вы решаете, какой запрос и урл нужно оценивать?

Мы можем оценивать одно и то же сочетание запроса и урла во времени. Мы можем проводить определенный эксперимент, исследовать новый фильтр или алгоритм ранжирования, которые меняют результаты для какого-то запроса. Поэтому нам необходимо посмотреть, релевантнее ли стали новые результаты.

Набор наших инструментов позволяет выполнить любое задание. Определение, насколько урл соответствует запросу, – это одно из заданий, которое мы делаем на постоянной основе. У меня есть целая команда статистиков, которые хорошо разбираются как в экспериментальном проектировании, так и в анализе информации, которую они получают в течение этого процесса. Мы называем их «аналитики качества поиска», но на самом деле они статистики. Поэтому в некоторых случаях мы проводим особые эксперименты, чтобы измерить определенные показатели.

Вы можете привести пример, как проходит процесс оценки качества поиска?

Один из экспериментов, который мы проводим очень часто, это сравнение набора запросов и результатов, которые по нему выдаются в измененной и стандартной системе. Нам нужно увидеть случаи, в которых результаты различны. Вы можете подумать, что этот процесс напоминает мероприятия, проверяющие систему на соответствие заданному уровню качества. Но в таком процессе идет поиск багов, и их стопроцентное исправление по определенной системе является хорошим результатом.

В поиске все немного по-другому. Все, что вы делаете с ранжированием, это где-то потеря, а где-то приобретение. Поэтому если кто-то приходит и говорит: «А давайте поднимем все документы, которые начинаются с буквы А, на три позиции», – я могу поспорить. Для каких-то запросов это поможет, но в общей массе это будет катастрофа.

Как это работает на практике?

Вот пример того, что мы делаем очень часто – мы работаем над вопросом основы слова, т.е. пытаемся определить ту часть слова, которая должна ассоциироваться с запросом. Также мы работаем над синонимией, т.е. определяем, какие слова должны считаться частью запроса. Недавно у нас был проект для китайского Google, в котором инженеры делали наш механизм синонимов более жестким, агрессивным. По их мнению, в варианты запроса нам нужно включать большее количество синонимов, чтобы спектр отображаемых результатов был более широким.

Мы провели оценку, в ходе которой наши асессоры сравнивали новые и старые результаты и решали, какие из них лучше. Но они не знали, какой вариант выдачи является стандартным, а какой – измененным. Такое тестирование принесло очень хорошие результаты, и новая система синонимов оказалась для пользователя лучше старой.

Но есть еще одна вещь, которую мы постоянно делаем – оцениваем, сколько положительных и отрицательных моментов принесло изменение. То есть отвечаем на вопрос, насколько положительными являются эти позитивные изменения, и получат ли пользователи более качественный поиск. Но еще важнее – мы оцениваем негативные моменты, которые принесли изменения. И не помешают ли они качеству поиска?

И когда мы стали смотреть на результаты эксперимента с нашей системой синонимов, то оказалось, что в целом изменения были положительными; но некоторые моменты были катастрофическими. Получалось, что в некоторых случаях, я точно сейчас могу не вспомнить примеры, но, скажем, система считала «большой» и «маленький» синонимами. Было бы совсем плохо запустить такой обновленный вариант. Поэтому тогда мы решили, что лучше оставить старую систему, но обратили внимание разработчиков на хорошие стороны.

А часто ли оцениваете варианты для различных языков и стран? Изменения, которые вы делаете под эти факторы, очень специфичны?

Мы изредка делаем изменения для отдельных стран. Обычно мы внедряем изменения единовременно для всех стран. Иногда все работает хорошо везде, кроме, например, Испании. Но это нетипичная ситуация. Это бывает связано с багом или особенностью, как публикуется на сайтах материал в конкретной стране.

Могу предположить, что тестирование такого огромного количества вариантов может стать практически невозможным. Как вы этого избегаете?

Мы стараемся концентрироваться на уровне страны, в котором видим наиболее серьезное влияние изменений. Какие запросы отреагировали наиболее остро? На какие результаты стоит посмотреть? Обычно мы оцениваем модели, которые встречаются чаще, чем остальные.

Поэтому очень важно иметь команду статистиков. Одна из их обязанностей – помочь нам спроектировать такую систему оценки, которая позволит получить важную информацию. Понятно, что ежедневно пользователи Google набирают миллионы запросов, многие из которых до этого не задавались поисковой системе или не будут задаваться в будущем. И понятно, что мы не можем исследовать все запросы. В процессе оценки поиска важно понять, является ли изменение важным и какое влияние оно оказало на выдачу. А пользователи, сравнивая две поисковые системы, обычно ориентируются на высокочастотные запросы. Они вводят запрос “flowers” и потом говорят: «Один поисковик показал мне картинки, другой – сайты с магазинами цветов. Картинки мне нравятся больше». Мы имеем дело и с менее частотными запросами, и именно здесь открывается вопрос о разнице между нами и конкурентами.

Как оцениваются результаты персонализированного поиска?

Мы делаем довольно-таки специфичные оценки качества персонализированного поиска. Здесь мы не можем с таким же успехом использовать людей в качестве асессоров, потому что мы не знаем, что входит в интересы пользователей, и мы можем нарушить их частную собственность.

Для того чтобы оценить персонализированный поиск, мы проводим исследования, основанные на пользовательских кликах. Мы выбираем группу людей, для которых применен один и тот же вид персонализации, отделяем маленький процент и применяем новый вид персонализации. Потом мы сравниваем, как меняются результаты поиска для них в сравнении с контрольной группой. Все, что мы делали в течение последнего года или двух с персонализированным поиском, проходило такую проверку. Она действительно работает.

Другая задача, с которой мы работаем часто, это региональная выдача. Во многих странах говорят по-английски. Но если я набираю запрос “bank”, мне нужны разные результаты в зависимости от страны, в которой я нахожусь (Америка, Англия, Австралия, Индия). И Google сегодня выдает разные результаты. Региональное разграничение также применимо для штатов и городов Америки. Пользователи получает разные результаты, если находятся в разных штатах. Но такие задачи нам кажутся сложнее.

Кто работает асессорами?

Они не волонтеры. Мы платим им за работу на основе договоров подряда. Асессоры должны обладать базовым образованием, коммуникационными навыками и хорошим уровнем английского языка. Мы не хотим, чтобы наши асессоры обладали глубокими знаниями в области технологий. Они должны представлять наших пользователей. Мы проверяем их на способность выполнять некоторые задания и следовать инструкциям.

Можно ли как-нибудь изъявить желание стать асессором?

Агентства временного найма находят асессоров на сайтах с объявлениями. Мы платили примерно 15-17 долларов за час работы, но желание взяться за такую работу зависит от того, в каком штате вы живете. Где-то 15 долларов – это хорошие деньги; где-то – не очень. Однажды я предложил подработать своей двоюродной сестре, которая живет в Южной Дакоте. И когда она услышала, что ей будут платить 16 долларов в час, она очень обрадовалась.

Насколько важны асессоры-люди по сравнению с автоматическими методами?

Асессоры-люди сегодня для нас очень важны. Автоматические методы и исследования, основанные на кликах, дополняют картину. Но везде есть недочеты и промахи. Люди ошибаются. Клики тяжело интерпретировать, потому что есть масса причин для пользователя кликнуть или не кликнуть на ссылку. Клики, несомненно, показывают, что делают пользователи; и вы можете получить огромное количество кликов. Но их тяжело интерпретировать. Когда поиск оценивают пользователи, они допускают ошибки. Но для конкретных примеров мы можем пойти дальше. Редкие запросы могут рассматривать и оценивать наши инженеры по ранжированию.

Мы обращаем большое внимание на те случаи, где мы не получаем единого мнения. У нас были случаи, когда асессоры воспринимали изменение как позитивное, а исследование кликов указывало на то, что изменение негативно сказалось на результаты поиска. Или наоборот. И нам приходилось разбираться, правильно ли мы задаем вопрос асессорам и не ошибаемся ли, расшифровывая данные о кликах.

А как работает автоматическая часть оценки качества поиска?

У нас есть довольно сложная всеобъемлющая система, которая использует различные данные, чтобы подтвердить результаты. Это похоже на работу дата-центра, то есть наша система постоянно работает: проверяет использование памяти или другие показатели производительности.

С оценкой качества поиска мы делаем что-то похожее. Постоянно в каждом из наших дата-центров проверяется большое количество запросов, и мы просматриваем результаты, чтобы убедиться, что у нас правильно настроены критерии качества. Есть набор запросов, который мы тестируем постоянно и которые оценивают наши специалисты.

Недавно представители Google говорили, что количество изменений увеличилось. В последнее время вы проводите больше тестов?

За последние пару лет мы провели примерно несколько сотен тестов. Сейчас, скорее, интенсивность выровнялась после нескольких лет постоянного увеличения изменений. Сейчас мы много работаем над пользовательским интерфейсом. Мы стараемся проводить больше экспериментов – иначе как мы выйдем за границы возможного? ; )

Нам не хочется быть просто десятью синими ссылками. Я вижу нас более агрессивными, с большим количеством новых функций, появляющихся на странице результатов поиска. Даже если сравнить современную страницу поиска с той, которую пользователи видели два года назад, то разница заметна.

Почему она постоянно меняется? Что заставляет Google делать эти перемены?

Google постоянно работает над механизмом ранжирования. И здесь мы быстро двигаемся. Со стороны интерфейса пользовали сейчас ожидают большего от поисковой системы. Частично это связано с теми функциями, которые вводил Google.

Когда я набираю “movies” в Google, я ожидаю, что поисковик будет знать, где я нахожусь и выдаст расписание фильмов, которые идут в местных кинотеатрах. Когда я набираю “pizza in san francisco,” я хочу увидеть карту и ссылки на хорошие места, где можно заказать пиццу, желательно с отзывами пользователей.

С другой стороны, 10 синих ссылок – это именно то, что пользователи ожидают увидеть. Глаз пользователя привык к такому виду результатов поиска, и поэтому может легко найти ответ. И изменений внешнего вида результатов может разрушить весь процесс поиска. Поэтому я не думаю, что мы готовы изменить страницу результатов кардинально.

То новое, чего ждут пользователи от поиска, будет связано с большими изменениями в интерфейсе?

Я не думаю, что мы уже добрались до этой точки. Когда я размышляю, почему не удается универсальный поиск, мне кажется, это не связано с невозможностью создать хорошую страницу результатов поиска, которая будет содержать различные виды информации. Это какая-то осечка: на странице отображается то, что не должно. Но сломана не парадигма, поэтому универсальный поиск будет работать.

Что удерживает специалистов по оценке качества поиска в вашей команде?

Люди, которые здесь работают, не просто специалисты мирового уровня, они еще и любят свою работу. Поиск – это очень интересная область. Это не одноразовый процесс создания дополнения, когда основная проблема решена сразу после завершения процесса.

В поиске все время есть набор сложных, интересных задач. Мы даже не близки к тому, чтобы поисковые задачи закончились.

Перевод под редакцией Юлии Вронской, SEOnews.

Источник: seonews.ru