Беседовал Приянк Гарг. Руководитель отдела разработки поиска Yahoo!

 

 

Расскажите о роли ссылок в алгоритмах ранжирования Yahoo?

Существует много мифов о том, как ссылки влияют на ранжирование. С помощью ссылок мы отслеживаем, как пользователи относятся к контенту, на который они ведут. Кроме того, по анкорному тексту определяется тематика страницы, на которую ведет ссылка. Эти сведения используются нами на протяжении многих лет для поиска наиболее релевантных источников под запрос пользователя.

Таким образом, ссылки важны, но не менее важен и анкорный текст. Мы ищем естественные ссылки, которые могут быть полезными пользователям Сети. Когда пользователь увидит их и заинтересуется такими ссылками, их можно считать рабочими. Именно эти ссылки мы распознаем, идентифицируем и приписываем целевому контенту.

Вы говорите о том, что большое значение имеет релевантность. Можно ли утверждать, что ссылка внизу страницы, например, на WordPress будет абсолютно нерелевантной?

Нерелевантные ссылки, расположенные внизу страницы, не представляют особой ценности для пользователей, поэтому мы не учитываем такие ссылки при ранжировании. Эти ссылки не влияют на рейтинг, хотя наши роботы их индексируют. Могу сказать, что за последние несколько лет, пока мы строили нашу поисковую систему и объединяли большие объемы информации, сократилось соотношение влияния ссылок и анкор-текста на алгоритмы ранжирования и их значение в целом на ранжирование.

Мы совершенствуем наш алгоритм ранжирования благодаря новым источникам информации, новым возможностям Yahoo!. Поэтому с течением временем снижается влияние ссылок на ранжирование. Думаю, это отчасти связано с тем, что вебмастера все чаще компрометируют качество ссылок. Из-за этого понижаются сетевые качественные характеристики ссылок. Тем не менее, мы не перестаем работать над тем, чтобы на запрос пользователя в результатах поиска были показаны качественные ссылки.

Значит, вы утверждаете, что ссылки играют все меньшую роль в новых процессах ранжирования?

Мы не делаем этого специально. Это процесс развития, а в ходе него может произойти все, что угодно. В чем-то это зависит от того, в каком направлении идет развитие самого интернета. Отмечу, совершенствуя алгоритмы, мы добавляем новые факторы, влияющие на ранжирование. Поэтому в процентном соотношении значение ссылок в процессе ранжирования стало значительно меньше.

Существует интересное предположение. Если бы цены на ссылки росли так же, как и цены на бензин, их бы просто перестали покупать, и качество выдачи стало намного лучше.

Возможно, но пока этого не произошло, наши алгоритмы постоянно совершенствуются; мы вводим изменения много раз в неделю. Некоторые изменения незначительные, но мы работаем над этим, чтобы идти в ногу с развитием Всемирной Паутины. В игру вступают все новые инструменты, новые возможности взаимодействия с пользователями. Эволюция не прекращается, и мы приспосабливаем наши алгоритмы под то, что происходит в сети.

Какие еще факторы, помимо ссылок, влияют на ранжирование в Yahoo?

У нас достаточно много источников данных, которые все время дополняются новыми. Мы учитываем структуру сайта; качество контента; наличие спама на сайта; наличие спама на каждой отдельной странице; выделенные на странице слова; содержание анкор-текста страницы. И таких факторов может быть несколько сотен.

Это что касается постраничных факторов, а какие из внешних? Например, ссылки с социальных медиа сайтов, например, сайт del.icio.us.

Любой ресурс, который может предоставить пользователю ценную информацию, является важным. Если это хороший сайт с различными обзорами, созданный самими пользователями, которые не имеют другого стимула, кроме как помогать другим пользователям, тогда эти ссылки будут ценными. Если сайт популярен у пользователей и на нем уникальный контент, ссылки с него будут рассматриваться как качественные.

Какие методы борьбы с поисковым спамом используются в Yahoo?

Мы используем специальные алгоритмы и команду редакторов для выявления и удаления спама. В обнаружении более эффективны алгоритмы, а наши редакторы очень хорошо умеют выявлять новые спам-технологии и на ранних стадиях давать сигнал тревоги. Этот подход, состоящий из двух составляющих, помогает нам быть одними из лучших в данной индустрии. Из всех поисковых систем меньше всего спама в Yahoo. Наша технология обнаружения спама исследует каждую страницу в индексе Yahoo. Данный алгоритм имеет определенное влияние на алгоритм ранжирования, где обнаружение спама очень важно.

Расскажите подробней о редакторах по выявлению спама?

Это специалисты Yahoo!, которые занимаются редактированием. Они настоящие эксперты в этой области, и порой они превосходят наши алгоритмы по части обнаружения подобных вещей. Иногда алгоритмы замечают что-то подозрительное, эти данные отправляются в специальную базу «подозрительных ресурсов», и только человек может распознать такие вещи на ранней стадии.

Мы используем эту схему, чтобы выйти на следующий уровень качества в обнаружении спама. Оба механизма алгоритмического обнаружения, за которыми следует редакционное обнаружение с последующей алгоритмической обработкой, все время находятся в действии. И наконец, усовершенствованием процесса работы является создание алгоритмических путей решения, чтобы можно было обнаружить спам на каждой странице, при каждом ее просмотре. Поэтому все, что делают наши редакторы, постоянно отражается в работе нашей спам-команды настолько быстро, насколько это возможно в алгоритмах.

Бывают ли у вас крайние ситуации, когда редакторы могут производить действия вручную?

Наши редакторы имеют право действовать в различных ситуациях, например, DMCA (акт об авторском праве в цифровую эпоху) или легальное удаление, какое имеет место на рынке Франции, где введены ограничения на определенные виды содержания сайтов, например, «памятные вещи нацистов» (Nazi memorabilia). На рынках других стран подобных ограничений нет. Следовательно, у них есть свои способы борьбы с нарушениями. Они не преследуют цель – найти за месяц миллион страниц спама и удалить их.

Мы можем использовать редактирование, чтобы обучать алгоритмы, чтобы направлять их. Также редакторы могут предупреждать вебмастеров о несоответствии их действий принципам поисковой системы.

Если будет обнаружена страница с хорошим содержанием, но с присутствием на ней некоторого количества спама, как это повлияет на ее ранжирование?

Да. Но в ходе нашей работы мы стараемся оптимизировать алгоритмы под запросы пользователей. Информационное содержание сайтов, доступное пользователям, и ранжирование по запросам – это то, на что мы обращаем свое внимание. Если страница содержит уникальную информацию, и неважно, это может означать, что она не будет соответствовать большинству запросов.

А что вы можете сказать относительно платных ссылок? Какова ваша политика?

У нас нет «белой» и «черной» политики относительно платных ссылок. Принципом остается ценность для пользователя. Если платная ссылка не имеет какой-либо ценности для пользователя, то и для нас она не представляет интереса. Наши алгоритмы направлены на определение ценности для пользователей. Мы постоянно убеждаемся, что естественные ссылки пользуются большей популярностью у пользователей, нежели платные ссылки.

Yahoo! продолжает фокусироваться на элементах, распознающих ссылки, ценные для пользователя, выстраивая механизмы в алгоритмах, которые ослабляют сигнал и собирают информацию о ценности ссылки в контексте. Они созданы не с тем, чтобы определять, платные это ссылки или нет. Как я уже говорил, мы выяснили, что платные ссылки представляют меньшую ценность для пользователей. Этим мы и руководствуемся.

Несколько технических вопросов. Расскажите о том, как Yahoo! обращается с NoIndex?

Присутствие NoIndex на странице подразумевает, что ее содержание не будет искаться и она не будет проиндексирована в нашей поисковой системе. Если на странице есть мета-тег NoIndex, то она не будет уже восстановлена.

А если большое количество пользователей пытаются перейти на страницу, которая содержит NoIndex, по действующим ссылкам, а эта страница перенаправляет их на другие страницы с качественной информацией; передает ли эта страница вес ссылки другим страницам на которые ведет?

Мы индексируем страницу и показываем адрес URL в результатах поиска, если она действительно популярна в сети, даже если она содержит тег NoIndex. По существу это применимо в тех ситуациях, когда страница сама по себе имеют высокую ценность, и имеется много релевантных внешних ссылок, отвечающих определенным запросам.

В настоящее время мы показываем страницы, содержащие тег NoIndex, если это рекомендовано анкор-текстом. Также мы обнаруживаем ссылки на странице с тегом NoIndex и передаем их значение соответствующим документам.

В robots.txt прописывается право на индексирование страницы. При каких условиях страница все еще может попасть в индекс?

Если файлы robots.txt говорят не просматривать, мы не будем просматривать, мы даже не будем пытаться восстанавливать страницу для просмотра. Но если анкор-текст определяет сильную потребность в том, чтобы показать ее для определенных запросов, тогда она может появиться.

Приведу такой пример. Сайт библиотеки конгресса запрещен для индексации файлом robots.txt, но эта страница была доступна для просмотра в нашей поисковой системе, потому что это было нужно пользователям. Так что она будет доступна в том случае, если будет известно, что эта страница соответствует определенному запросу.

Актуальной остается проблема дублированного контента. Как поступает Yahoo, когда обнаруживает одну и ту же информацию на двух разных сайтах?

Наша цель – иметь хороший имидж, уникальное содержание страниц для пользователей и обеспечивать максимальное количество релевантной информации на каждый запрос, который делает пользователь. Поэтому мы прикладываем усилия к тому, чтобы постоянно находить источники с одинаковым содержанием, распознавать первоначальный источник, насколько это возможно, и приписывать ему авторское право на данную информацию. Затем мы применяем это для каждого запроса. Скажем, содержание сайта А дублирует содержание сайта Б, а мы узнаем, что сайт А – первоначальный. Тогда в качестве результата поиска, связанного с этим содержанием, появится скорее сайт А. Но если в запросе говорится, что необходима эта информация с сайта Б, то мы постараемся ее предоставить.

Но ведь не всегда легко определить авторство.

Это правда. Не так-то просто определить лучшую страницу, но это является частью наших алгоритмических усилий, и мы продолжаем это делать. И существует множество факторов, которые зачастую работают.

Если поступают жалобы на нарушение авторских прав, они рассматриваются командой техподдержки и редакторов, а впоследствии могут быть пресечены. Так что если вы или любой другой владелец сайта уверены, что ваш материал взят без вашего согласия, сообщите нам об этом – мы обязательно рассмотрим вашу жалобу и сохраним материал, который был украден.

Подводя итоги, я хотел бы спросить, что бы вы хотели посоветовать издателям и оптимизаторам поисковых систем, исходя из опыта работы Yahoo.

Базовые принципы остаются прежними; больше думайте о пользователях. Следуйте правилам поисковых систем, чтобы мы быстрее смогли распознать содержание вашего сайта. Не пренебрегайте инструментами, которые наша команда разрабатывает для вас, например, Yahoo Site Explorer является огромным пространством для изучения того, что мы делаем.

 

Источник: seonews.ru

Поделиться в соц. сетях

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовать в Мой Мир

Рекомендуем ещё