Rambler: Как понять пользователя

23 апреля, на конференции РИФ+КИБ 2010, в рамках секции «Поиск: настоящее и перспективы» состоялся доклад Марины Хоруженко, руководителя группы исследований и анализа компании Rambler.
Марина рассказала о том, как пользователь воспринимает изменения, происходящие в поиске: в интерфейсах, качестве результатов поиска, рекламе, визуализации результатов поиска и т.п. Были приведены реальные факты и спрогнозировано поведение пользователей, интерпретировано их поведение, приведены краткосрочные и долгосрочные поведенческие метрики.
Перед началом своего выступления Марина предупредила аудиторию, что все графики, иллюстрирующие проведенные тестирования, вышли несколько странными, так как во время эксперимента в Рамблере постоянно что-то ломалось.

Я на самом деле не уверена сейчас, что буду рассказывать о перспективах поиска, скорее я буду рассказывать о настоящем. Дело в том, что когда мы делаем поиск, понятно, что мы его делаем для пользователя, поэтому нам крайне важно понимать пользователя, точно знать чего он хочет. Ведь это не всегда видно по запросу, а для нас крайне важна реакция пользователя на те изменения, которые мы делаем в поиске.
Для того, чтобы мой рассказ не был абстрактным, я покажу на примерах нескольких наших разработок, что мы видим в реакции пользователей, когда вносим некоторые изменения в поиск. И расскажу, зачем мы следим за пользователями и, главное, как мы это делаем.

Самое главное – это ранжирование. Вот основной объект изменений в поиске. Я покажу, что мы видим, когда меняем что-то в интерфейсах, либо меняем алгоритм формирования аннотаций.
На самом деле это не очень просто – оценить, на что пользователи реагируют. Потому что поиск – это такая сложная система, и на реакцию пользователя влияет множество разных факторов. Во-первых, это технические характеристики. На самом деле, какое бы вы крутое ранжирование не сделали, если у вас поиск работает медленно, или вообще не работает, смысла в таком поиске нет. Во-вторых, главный фактор – это качество контента, причем хочу заметить, что это качество не только найденных результатов поиска, но и контекстной рекламы. В-третьих, есть еще много других важных факторов, таких как аннотации к результатам поиска и интерфейсы.

Рамблер за последние полгода делал очень много докладов на тему «Как оценивать поведение пользователей». Итак, как мы следим за пользователями? Мы обрабатываем логи, которые у нас собираются, в частности то, как ведут себя клики пользователей, куда они кликают, с какой скоростью они это делают. Мы оцениваем также время, например, сколько времени пользователь проводит на найденном результате поиска. То есть, если он просто открыл и закрыл страницу, значит, он там увидел совсем не то, что искал, и ему это не интересно. Мы также оцениваем куда пользователь кликает, вглубь, промахивает ли он дальше на следующие страницы. Ну и самый важный фактор, мы смотрим, как в общем ведет себя аудитория. Происходит ли рост, происходит ли частота обращений пользователя к поиску, происходит ли рост поисковых сессий от конкретного поиска и многое другое.

Как мы это тестируем. Например, мы придумали мега новое ранжирование и считаем, что оно очень эффективно. Мы не накатываем его на всю аудиторию, вдруг оно в действительности плохое и нам просто показалось хорошим, мы тестируем его только на небольшой части нашей аудитории. У нас предусмотрена целая система сплит-тестов, некоторые из которых изображены здесь.

Здесь всего 6 графиков, на самом деле их штук 50, и мы каждый день наблюдаем изменение метрик на сплитах по сравнению с базовой версией.

Итак, допустим, мы сделали новое ранжирование, чего мы вообще ожидаем? Ну, во-первых, мы считаем, что человек будет в большинстве случаев удовлетворен первым результатом поиска, он больше не будет кликать никуда, то есть на этом результате поиска он проведет большое количество времени. Нам кажется, что чем больше человек кликает в поисковой выдаче на первые вторые результаты поиска, тем лучше. Если он кликает куда-то на десятый результат, но не на первый – то это не очень хорошо. Как я уже говорила, при хороших результатах поиска пользователь проводит больше времени на самих сайтах, а не на страничке выдачи, и количество отказных кликов минимизируется. Если пользователь проводит на сайте меньше 20 секунд, мы считаем, что это не очень хорошо. Так же метрика того, что мы сделали хорошее ранжирование, – к нам пользователи начинают чаще обращаться, то есть мы начинаем у людей регистрировать больше куков, мы начинаем регистрировать больше сессий. Вот сейчас я покажу на графиках, что же мы в итоге видим.

Вот вы видите это ранжирование на части аудитории. Сначала хочу предупредить, что графики, относящиеся к новому ранжированию будут выглядеть странно. Потому что у нас там, на этом сервере периодически все ломалось, и также в какой-то период времени мы накопили какое-то количество полезных данных и, соответственно, изменения стали сильнее. Вот это клики по первому результату.

То есть то, о чем я говорила, что пользователь доволен первым результатом поиска. Вот мы видим какие происходят изменения. То есть это отличное поведение пользователя, чему мы очень рады. То, что вы видите зеленым, это базовая версия, то есть это график отношения, не какие-то абсолютные числа, мы просто показываем тенденции, здесь нету чисел, мы не показываем «на сколько» или «во сколько» выросло или уменьшилось, – это просто некая тенденция.

Далее мы смотрим на то, куда в поисковой выдаче пользователь начинает кликать, то есть мы считаем, что чем выше – тем лучше. Интересно наблюдать за пользователями, и видеть, что они как бы не сразу воспринимают изменения, то есть они какое-то время понимают что что-то изменилось, но ведут себя еще так, как раньше. Потом они привыкают, и эти изменения становятся более явными. Вот тут видно по графику, что пользователь стал кликать выше.

Рассматривается также доля отказных кликов, там где пользователь проводит менее 20 секунд. С введением нового ранжирования доля отказных кликов резко уменьшилась. В то время, как среднее время, проведенное на найденных результатах поиска, наоборот, выросло.

Вот давайте посмотрим, что случилось с поисковыми сессиями, когда мы накатили новое ранжирование.

Ну, сначала сессии начали расти, потом у нас все сломалось на восьмой неделе, но пользователи не сразу поняли, что они там видят не наше новое ранжирование, а что-то другое, но тем не менее, количество обращений начало постепенно падать, и упало очень сильно. Потом опять все починили, пользователи не сразу поняли, что мы что-то починили, привыкали к новому ранжированию, и количество сессий начало опять расти.
Сейчас на тесте видно, что на 16-ой неделе уже все хорошо. Это по отношению к изменению количества сессий базовой версии, то есть там, где нет этого сплита.

Но, не смотря на предыдущий график, который показал, что количество обращений растет, нет никакой гарантии того, что если мы сейчас выкатим это новое ранжирование на весь поиск Рамблера, то нас резко вырастет аудитория и доля рынка.
Главный вопрос – почему? Мы можем много всего предполагать, мы на самом деле точно не знаем почему, а предполагаем, что на самом деле слишком много факторов, которые влияют. Если мы позаботились о качестве поисковых результатов, но не позаботились о качестве рекламы, – это плохо. Если мы инерфейсы какие-то кривые сделали – это тоже плохо, потому что пользователи не станут ходить на поиск только потому, что у нас стало супер эффективное ранжирование.
Причина может быть и в том, что мы тестируем на малом количестве аудитории, и на сплите очень сильна погрешность. Ну, и кроме того, пользователей для этого теста, мы выбирали по IP, то есть мы разделили аудиторию по айпишникам. А может это не правильно, может надо было делить пользователей по кукам или как-то еще. Айпишники часто меняются, пользователи начинают перетекать с одного сплита в другой, нам очень сложно оценить это влияние.

Мне хотелось бы обратиться к аудитории: Как вы думаете, почему так получается, что мы сделали хорошее ранжирование, а роста аудитории все равно не происходит? Известно, что Яндекс говорит, что они сделали МатриксНет и у них сразу происходит рост аудитории, а у нас – не происходит. Почему?

Зал: - Также, как пользователю очень сложно отличить вкус пепси от вкуса кока-колы, также ему сложно отличить хорошее ранжирование от очень хорошего. То есть, большинство пользователей смотрят на это как обыватели, вот основная причина того, что ваши изменения оказались не существенными.

М. Хоруженко: - Мы тоже понимаем, что пользователь, глядя на выдачу, вовсе не думает «вау, какая клевая выдача! просто офигенная! приду я сюда еще раз!», он просто совершает некие неосознанные действия.

Зал: - Мне кажется, что человек, когда приходит в интернет, он либо сразу начинает пользоваться той поисковой системой, о которой слышал, либо осознанно сравнивает поисковые машины и перетекает. И перетекает в сторону самого лучшего сейчас на рынке поисковика. Ну, извините….

М. Хоруженко: - На самом деле у нас еще был доклад на тему, мы тестировали на нашей выдаче, выдачу Яндекса и Гугла, вот. И вот эти все метрики мы оценивали, кто кого лучше, но это исключительно наша аудитория. Поэтому мне есть, что ответить этому человеку, но потом.

Зал: - А у меня тоже вопрос к залу. Кому нравится розовый и голубой цвет?
Очевидно, сотрудникам Рамблера, да?

Зал: - Марина, а не кажется ли вам, что вы задаете вопрос залу, то есть интересуетесь их мнением, но вы работаете целиком автономно. Себя спрашиваете и себе отвечаете, и уж мне не понятно, какое мнение пользователей вы вообще надеетесь собрать. У меня, например как у пользователя, масса вопросов. Я, например, не вижу за этим какие количественные методики вы используете. Вы утверждаете, что изменения в пределах погрешности, а вот у меня большие сомнения, потому что мне непонятно, что вы намеряли. Поэтому мне думается, что надо более внимательно все-таки информировать пользователя о том, что вы делаете. Тогда вы получите более адекватные оценки. Спасибо.

М. Хоруженко: – Давайте продолжим, есть еще мнения?

Зал: - Во время доклада я очень часто слышала фразу «пользователи привыкли», они вначале испугались, потом пользователи привыкли. Вы, наверное, работаете только с теми, кто к вам привык, поэтому аудитория никак не растет и не меняется. Пользователь не привыкать должен, а ему должна НРАВИТСЯ новая выдача.

Зал: - Хотелось бы добавить, посмотрите как Гугл и Яндекс отвоевывают аудиторию. Все очень хитро. Отвоевывают сервисами, то есть это очень большая умная стратегия. Сейчас просто поиск – этого мало. Хотя у вас и есть множество сервисов, но почему-то все пользуются другими сервисами, да?

Илья Сегалович (Яндекс): – Я не хочу сообщить, что чей-то поиск лучше вашего, вовсе нет. У меня другой вопрос совершенно. Вот смотрите, пользователь что должен сказать в ответ на ваш вопрос? Он должен сказать – «спасибо вам большое, я почувствовал, что позиция моего первого клика сегодня на 0, 14 сотых меньше чем вчера, я просто физически это почувствовал и готов ответить вам двумя дополнительными кликами и шестью дополнительными запросами»? Это первое.
Второй момент такой – видимо нужно какую-то мысль донести, вложить в голову пользователя. Мысль о том, что мы что-то такое сделали важное, предположим, стали отвечать на вопросы, связанные с очень и очень свежей информацией, или например, мы стали отвечать на локальные запросы, вот рядом с вами, предположим. И мы стали отвечать так, что вот прямо видно разницу с другими поисковыми системами, и пользователь может это проверить сегодня, прямо сейчас. Или может быть у нас такой интерфейс, который не требует запросов – ты только подошел, а уже ответ. Революция. То есть должна быть какая-то простая мысль, которую можно объяснить вашей бабушке. Потому что объяснить вашей бабушке, что ваш поиск отличается на позиции первого клика на 0,14 очень сложно. Я, собственно хотел спросить, как вы себя хотите в этом смысле отличить?

М. Хоруженко: – Ну, мы тут себя не то, что хотим отличить и объяснить пользователям, что они теперь будут кликать на 0, 14 сотых выше. Мы пытаемся понять, насколько очевидно, что поиск стал лучше, мы просто хотели это оценить.

Источник: www.searchengines.ru