Сегодня, 11 ноября, на девятой ежегодной конференции «Поисковая оптимизация и продвижение сайтов в интернете» в рамках второй секции «Поисковые машины» прозвучал доклад ведущего специалиста «Рамблер Интернет Холдинга»Сергея Протасова «Новое ранжирование Рамблера. Почему мы отказались от MatrixNet»

Главные тезисы доклада:

Почему мы не стали использовать MatrixNet? У всех похожих алгоритмов есть проблема: необходимость асессоров. Из-за их дефицита возникает снижение качества поиска.

Во-первых, для части вопросов возникает непонимание запроса или расхождение во мнении.
К примеру, у нас есть два асессора: врач и специалист по «взрослым» сайтам. В этом случае качество поиска понизится. Для того чтобы полноценно обучить алгоритм, нужны эксперты по всем вопросам, а это невозможно.

Во-вторых, существует расхождение мнений асессоров. Для решения обеих проблем нужно расширять штат до тех пор, пока не появится какое-то однообразие мнений. Для примера, чтобы разметить запрос «транстелеком» может не хватить более 100,000 экспертов, пока не появится специалист, работавший в этой компании, который знает, что название поменялось. Он один ответит правильно, но «среднее» мнение – все равно будет неправильным и будет снижать качество поиска.

Еще одна проблема – «шумящие» факторы: они не только бесполезны, но и могут снижать качество при добавлении в факторы ранжирования. Различать факторы слабые или шумящие сложно, чтобы более точно определить качество факторов – опять же нужно расширять штат экспертов. Получается зависимость: чем больше экспертов, тем лучше качество. При этой ситуации очень быстро наступает бюджетное ограничение.
Кроме того, есть проблемы обучения: эксперты смотрят друг на друга, разнообразие мнений падает и падает качество. Поэтому наши эксперты – наши пользователи.

Часть поисковых систем может, реинженируя чужой поиск, решить проблему количества экспертов, но в этой ситуации они не смогут подняться выше оригинала. Если решить и это – получаются такие же результаты.

Исследование схожести, проведенное Рамблером:
-самые непохожие Bing и Mail
-самые похожие Google и Яндекс

Рамблер хочет отличаться, а не походить. Поэтому новое ранжирование – использование поведения пользователей, а не экспертов. Модели поведения пользователей: если он кликнет на этот результат – результат стоит поднять. Мы отдаем основное внимание первым трем результатам, на них должны быть самые качественные результаты.

Для того, чтобы бороться с обратной связью, используется рандомизация – перемешивание выдачи ежедневно. Чем дольше работает наш алгоритм, тем лучше качество поиска. К каждому запросу мы стараемся подходить индивидуально. Если результат плохой, мы увеличиваем глубину рандомизации, и наверх могут попасть больше новых сайтов.

Формула ранжирования меняется раз в неделю, чтобы ее нельзя было восстановить. По коммерческим запросам первая сотня очень похожа, поэтому несправедливо отдавать весь трафик только первым 3 сайтам, соответственно, первая сотня все время меняется местами.

Как тестируется качество поиска: «выкатывается» новый поиск, и оценивается средняя позиция кликов. Мы придумали технологию, которая анализирует не только свою, но и чужую выдачу. Раз в несколько сотен мы показывает чужую выдачу, и сравниваем поведение пользователей по сравнению с нашей выдачей. При сравнении мы пытаемся спрогнозировать, сможем ли мы завоевать большую долю рынка, выводя определенные метрики.

Если метрика позволяет предсказать долю рынка – она хорошая, если нет – она не соответствует действительности. По нашему мнению на долю рынка влияет много факторов, но достаточно 2-х: качество и маркетинг. По нашим метрикам мы регистрируем, когда у кого какое качество и наблюдаем корреляцию между долей и рынком. Только Яндекс и Google не вписываются в эту модель: Google при очень высоком качестве не растет, а Яндекс растет.

Наверное, дело в маркетинге. Основная аудитория поисковиков сформировалась в последние 2-3 года. Нужно оценить не только метрики качества, но и метрики маркетинга:

- доля незнающих пользователей: когда поиск не работает, часть пользователей не переходит на другие поисковики. 2/3 пользователей Яндекса не знают других поисковиков, или не хотят переходить.
- сила бренда. Чем более влиятелен бренд, тем чаще его ищут. Яндекс вводят в 2 раза чаще, чем другие.
- доля новых пользователей: счетчик Рамблер топ-100, по cookie ситуация такая, что обычная доля 3-4%, возраст cookie 30 дней. У Яндекса бывают дни, когда их становится до 11%, а возраст cookie – 7 минут. Откуда они берутся нам неизвестно (возможно, из телевидения).

По нашим прогнозам доля Яндекса будет увеличиваться за счет маркетинга. После стабилизации пользователям станет интересно качество.

Наше положение – мы должны перестать падать, и начать расти как все, на 60% в год. Пока мы падаем на 5% в месяц. После того, как мы выкатили новое ранжирование, мы несколько стабилизировались.

Вопрос из зала: - Прозвучало, что вы стремитесь отличаться от Google и Яндекса. У вас другая целевая аудитория или вы не согласны с их подходами?
Сергей Протасов: - Мы хотим представить уникальный контент. У нас другой подход к составлению индекса, краулингу. Мы уже ничего не можем сделать, кроме улучшения качества.

Вопрос из зала: - Какое количество асессоров у вас было, неужели у Яндекса их гораздо больше? Может, у Яндекса асессоров больше, чем у вас пользователей?
Сергей Протасов: - У нас было мало асессоров – целых два. Они ушли в Яндекс. Но у Яндекса вряд ли есть несколько миллионов асессоров.

Вопрос из зала: - У вас в презентации так получилось, что тысячи экспертов могут оценивать 70 факторов. Яндекс использует более 1000 факторов, сколько же у них, по-вашему, должно быть асессоров?
Сергей Протасов: - Этот вопрос стоит задать Яндексу. Мы считаем, что количество факторов и экспертов соотносятся в геометрической прогрессии.

Вопрос из зала: - Вы нам показали, что асессоры – это не очень хорошо, что они ошибаются и не могут согласиться. Данные они дают плохие?
Сергей Протасов: - Да, плохие.

Вопрос из зала: - Другие поисковые системы учатся на плохих асессорских оценках, дают выдачу, которая еще хуже, а вы учитесь на этой выдаче?
Сергей Протасов: - Нет, мы думаем, что другие поисковики могут обучаться. Мы не стали обучаться на выдаче.
Вопрос из зала: - А на чем тогда?
Сергей Протасов: - На пользователях, их у нас несколько миллионов, этого хватит, чтобы «забить» несколько сот асессоров.

Вопрос из зала: - Вы учитываете мнение пользователей, но неявно. Можно ли поставить галочку, что это плохой сайт?
Сергей Протасов: - Это приведет к накруткам.

Вопрос из зала: - Вы оцениваете мнение пользователей – по кликам, а как быть со сложными редкими запросами, если по ним ваши пользователи не кликали?
Сергей Протасов: - Мы используем некие аппроксимации.. машинное обучение.
Вопрос из зала: - То есть, вы не учите оптимизировать релевантность? Вы оптимизируете кликабельность?
Сергей Протасов: - Не совсем так, кликабельность только один из факторов.
Вопрос из зала: - Вы видите, что используя клики – вы становитесь «желтыми» – новостными, трешевыми?
Сергей Протасов: - Мы это видим. Эксперты нужны, но в небольшом качестве.

Вопрос из зала: - Составляли ли вы портрет вашей целевой аудитории, те, кто ушел с Яндекса в пользу качества, которое, по вашим словам у Рамблера, лучше, чем у Яндекса?
Сергей Протасов: - Это пользователи нашего портала, пока только за счет их мы можем увеличить аудиторию.

 

Источникwww.searchengines.ru

Поделиться в соц. сетях

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовать в Мой Мир

Рекомендуем ещё