Ноя
Математическая модель – формула оценки качества страницы
Автор: Ашутош Гарг (Ashutosh Garg) является главным технологом компании BloomReach, обладающим десятилетним опытом в сфере информационного поиска, компьютерного обучения и поисковых систем. До этого он более четырех лет проработал научным сотрудником в компании Google, а еще раньше – в научно-исследовательском отделе компании IBM. Ашутош также является автором учебника по компьютерному обучению и более 30 научных статей. Ему также принадлежит более 50 патентов на изобретения. В Индийском технологическом институте в Дели Ашутош получил степень бакалавра менеджмента в области графического дизайна, а в Иллинойском университете Урбана и Шампейна – степень кандидата наук. Ашутош имеет множество наград, включая премию за лучшую диссертацию Индийского технологического института, стипендию компании IBM и премию за выдающиеся исследовательские работы от Иллинойского университета.
В данной статье под качеством страницы имеется в виду качество страницы с точки зрения поискового запроса и пользователя, составившего такой запрос.
Качество страницы представляет собой широкое понятие, а конкретный алгоритм зависит от конкретного контекста, для которого планируется использовать балльную оценку качества. В настоящей статье не рассматривается подробно какой-либо отдельный алгоритм, а описывается структура, позволяющая оценить качество страницы и определить способы ее адаптации к конкретной ситуации.
Качество страницы является крайне важным фактором для:
1. Поисковых систем. Поисковые системы оценивают страницу с точки зрения запроса и применяют такой сигнал, чтобы определить, является ли данная страница релевантной запросу пользователя. Кроме того, применяя балльную оценку, можно решить, является ли одна страница относительно лучше другой страницы.
2. Целевой направленности рекламы. При показе какой-либо рекламы пользователю, программа adnetwork способна оценить саму рекламу и соответствующую целевую страницу, на основании выданного пользователем запроса, и определить, действительно ли такая реклама соответствует поиску, проводимому пользователем.
3. Обнаружения. Страницу можно оценить даже при отсутствии запроса, чтобы определить ее качество и тем самым решить, стоит ли рекомендовать такую страницу конечному пользователю.
В настоящей статье будут рассмотрены различные алгоритмы, применяемые для оценки качества страницы.
Первая группа алгоритмов рассчитывает балльную оценку документа, как функцию конкретного запроса, выданного пользователем:
Оценка информационного поиска. Сообщество систем информационного поиска изучает вопрос о том, как вычислить наилучшую оценку страницы в соответствии с запросом. Это, вероятно, наиболее важная оценка, которую можно применить при определении качества страницы. Данный алгоритм был реализован различными поисковыми системами общего доступа, например, системой Lucene. В случае запроса Q = {q1, q2, q3}, содержащего три слова и страницу Р, для вычисления балльной оценки страницы используются следующие шаги:
1. Использование относительного веса каждого раздела страницы. Стандартную веб-страницу можно подразделить на различные элементы, например, название, заголовки (H1, H2, H3..,), основной текст, жирный текст, крупный текст, мелкий текст (в зависимости от размера шрифта), текст над сгибом страницы (при определенном отображении), ссылки, шаблоны, текст на страницах с указателями, текст на ранее открытых пользователем страницах, текст на изображениях на странице, текст адресов сайтов и т.д. В зависимости от приложения различным элементам страницы можно задать различный вес. Для начала следует понять, каким образом пользователь может обнаружить страницу и составить свое первое впечатление. В случае поиска, пользователь найдет такую станицу, прочитав название и сниппет. Пользователь составит свое первое впечатление, прочитав текст над сгибом страницы.
2. Создание характеристики на основе запроса. Запрос разбивается на n-граммы (биграмма представляет собой фразу длиной в два слова). Затем каждой из таких n-грамм присваивается вес. Например, рассмотрим запрос «canon digital camera» (цифровой фотоаппарат «Кэнон»). В данном запросе слово «canon» является важной униграммой, поскольку оно относится к бренду. «Canon digital» (цифровой «Кэнон») – плохое словосочетание, а «digital camera» (цифровой фотоаппарат) – хорошее. Традиционно для определения веса пользователи применяют численный показатель TF-IDF. Следует быть внимательным при выборе массива данных для вычисления TF-IDF. Он должен быть весьма схожим с массивом данных, на котором проводится определение веса.
3. Качество документа для вычисления оценки TF-IDF. Документ, состоящий из контента всех страниц на сайте, подойдет для любого запроса. Однако иметь дело со слишком большим документом нежелательно. В то же время документ, идентичный запросу, бесполезен, поскольку пользователь не узнает ничего нового, попав на такую страницу. Необходимо проверить, какой платформой пользуется большинство посетителей определенного веб-сайта. Если они используют смартфоны, то идеальной длиной документа является менее 500 слов, если планшеты – 1000 слов, ноутбуки – до 3 000 слов. Рекомендуется применять какой-либо способ нормализации балльной оценки в соответствии с длиной документа. Пользователями систем информационного поиска опубликовано много статей по нормализации балльной оценки информационного поиска на основе длины документа.
4. Простым способом оценки документа может быть:
Страница P состоит из полей di весом wi, а запрос Q состоит из слов qk. Длина страницы – L, количество словосочетаний в запросе –Nq,
где f – функция элемента нормализации, основанная на длине документа.
Какая страница имеет более высокую оценку информационного поиска для словосочетания “Canon digital camera”?
Обе страницы представляют цифровой фотоаппарат «Кэнон», но у одной из них намного более высокая оценка в информационном поиске. Как можно определить, балльная оценка какой страницы отражена в приведенной ниже таблице?
Оценка полезности. Представляет собой оценку, основанную на взаимодействии посетителей со страницей, и отражает, насколько часто посетители находят данную страницу полезной для своего запроса.
Для большинства веб-сайтов существуют способы определения успеха (известного также как конверсия). В случае сайтов интернет-торговли конверсия определяется как покупка продукта или услуги. Для сайтов привлечения потенциальных клиентов конверсия определяется как заполнение формы. Для медийных сайтов это может быть взаимодействие с каким-либо медийным элементом, например, запуск видео или количество просмотров страницы. Для какого-либо запроса можно вычислить коэффициент конверсии и применить его непосредственно в качестве балльной оценки поведения.
Проблема в этом случае заключается в немногочисленности таких данных. На сайте Интернет-торговли коэффициент конверсии может составлять всего лишь 0,5%. Это означает, что в среднем, на каждые 200 просмотров по данному запросу, отмечается одна конверсия. Низкочастотные запросы по определению имеют низкую частоту, что делает такое вычисление невозможным. Данную проблему можно решить несколькими способами:
1. Обобщение уровня запроса. Вычисляется балльная оценка не конкретного, а абстрактного запроса. Например, запрос [canon digital camera] можно абстрагировать следующим образом:
- До запроса из трех слов
- До запроса с наименованием бренда
- До запроса, включающего все слова в названии страницы
2. Теперь можно было бы сказать, каков коэффициент конверсии всех запросов, имеющих длину в три слова, и включающих все слова названия, а также наименование бренда в качестве одного из слов в запросе. Мы видим, что такое обобщение может быть очень широким, либо очень узким. В зависимости от объема имеющихся данных можно выбрать соответствующий уровень обобщения.
3. Альтернативы конверсии, такие как показатель «ненужных просмотров». В то время как коэффициент конверсии может составлять всего лишь 0,5% и менее, показатели «ненужных просмотров» обычно лежат в пределах 20–80%. Это означает, что для оценки качества страницы требуется гораздо меньшее количество ее посещений. Следует быть внимательным, поскольку показатель «ненужных просмотров» не всегда в достаточной степени соответствует коэффициенту конверсии.
Существует вторая группа оценок для страницы, которые вычисляются независимо от запроса. Вот некоторые примеры:
Поведенческая балльная оценка страницы. Существенным показателем качества страницы является то, как ее воспринимают пользователи. Такую характеристику можно измерить с помощью анализа поведения пользователей. Традиционно используются следующие факторы:
1. Балльная оценка конверсии – Вычисляется коэффициент конверсии страницы независимо от запросов, приведших к данной странице
2. Показатель «ненужных просмотров» – Вычисляется показатель «ненужных просмотров» страницы независимо от запросов, приведших к данной странице
3. Количество просмотров страниц – Количество страниц, просматриваемых при посещении сайта, после которых просматривается данная страница
4. Количество повторных посещений данной страницы – Количество посетителей, которые постоянно возвращаются на данную страницу.
5. Сколько пользователей добавляют какой-либо продукт в свою корзину после посещения данной страницы?
6. Среднее количество времени, проводимое на данной странице.
Сигналы, характеризующие поведение, нельзя анализировать изолированно. Они должны анализироваться относительно других сходных страниц. Например, на сайте Интернет-продавца пользователь может сравнить поведение страницы, предлагающей какой-либо продукт, с другими аналогичными страницами.
Простым способом вычисления балльной оценки является:
где fi – значение характеристики (показатель «ненужных просмотров» и т.п.), mfi – среднее значение характеристики fi на всех однотипных страницах, wi является весовым индексом, придаваемым различным характеристикам.
Конверсии можно придать весовой индекс 0,8, а показателю «ненужных просмотров», который является весьма зашумленной характеристикой, – только 0,1. Более сложный способ заключается в определении количества пользователей, которые покидают сайт и выбирают другой результат поиска по тому же поисковому запросу.
Репутация страницы – Ранжирование страницы является отличным способом при определении популярности страницы по сравнению с другими страницами сайта. Другие факторы репутации включают показатель удаленности данной страницы от исходной страницы – количество шагов, необходимых, чтобы попасть на данную страницу при перемещении с исходной страницы.
Качество языка на странице – Можно построить языковую модель для контента, который понравился посетителям сайта, и оценить страницу с точки зрения такой языковой модели. Для моделирования страниц обычно применяются модели HMM. Ниже даны ссылки на некоторые статьи, описывающие языковые модели:
http://dl.acm.org/citation.cfm?id=383970
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.76.1126
http://dl.acm.org/citation.cfm?id=243206
После вычисления всех оценок их следует объединить.
Допустим, оценки включают:
IR (оценка информационного поиска)
B (поведенческая оценка)
R (оценка репутации, или ранжирование страницы)
LM (оценка языковой модели)
Простым способом объединения таких оценок является:
Весовые показатели можно регулировать, чтобы отразить, какой вес желательно придать каждой характеристике. Для новой страницы данные о поведении будут минимальны, и ей нужно придать небольшой вес. Однако, если страница существует давно, ее вес должен быть гораздо большим.
Вышесказанное представляет собой хорошую перспективу для вычисления балльной оценки страницы с точки зрения запроса, однако для этого требуется существенное инвестирование в ИТ, что для среднего участника рынка может оказаться невозможным.
Источник: www.searchengines.ru