От «Магадана» до «Находки» переменная облачность

Все началось 18 марта этого года, когда Яндекс в своем блоге опубликовал пост «Про отношение Яндекса к SEO -ссылкам». Именно этот день можно считать переломным моментом в SEO 2008 года и продолжением прошлогодних обновлений алгоритмов поиска Яндекса.

После этого многие оптимизаторы заговорили про новые факторы ссылочного ранжирования. Позже, 16 мая на суд общественности вышел новый алгоритм под названием Магадан. Теперь условлюсь его называть Магадан 1.0, хотя, может, был и Магадан 1.1, и 1.2, только мы этого не заметили.

В Магадане 1.0 было заметно изменение в ссылочном ранжировании. Видимо, как и обещали, стали бороться с SEO -ссылками. Также было заявлено, что количество факторов, влияющих на ранжирование, было увеличено в два раза. Основное, что было замечено и проверено на наших собственных проектах, так это влияние возраста сайтов, как акцепторов, так и доноров. Также, по всей видимости, были внесены изменения в переколдовку запросов и применена новая техника под названием «Прюнинг», с помощью которого улучшена скорость поиска по запросам, по которым находится большое число документов (например, «новости» или «жж»).

Не стоит забывать о «расширении запросов», может быть это и был Магадан 1.1 ; ). Теперь Яндекс понимает запросы в виде сокращений и аббревиатур, так же улучшена обработка эквивалентных по смыслу запросов, например «гамбургские гостиницы» и «гостиницы Гамбурга».

Магадан 2.0. Анализ

Не прошло и полутора месяцев, как 28 июня вышел новый алгоритм Магадан 2.0, а 03.07.08 прошел первый апдейт в Яндексе по данному алгоритму. Сильных изменений в выдаче не наблюдается, поисковый индекс увеличился, но не так сильно, как нам этого хотелось. Скорее всего, следующий апдейт будет более показательным. По текущей ситуации я считаю, что изменений в ссылочное ранжирование не вносили, их хватило в Магадане 1.0, а вот над факторами, влияющими на контентное ранжирование, поработали хорошо, но фундаментальных изменений нет, чему соответствует и название Магадан 2.0, а не обещаемая нам «Находка». Основными изменениями в алгоритме является введение так называемых классификаторов запросов. В своем блоге Яндекс упомянул четыре классификатора, но, скорее всего, их больше. Опишу пока те, что были упомянуты:

1) Классификатор, учитывающий уникальность контента.
С учетом уникальности контента, как обычно, проблемы. В сети настолько распространен плагиат, что сделать качественный классификатор, определяющий первоисточник, который устроит всех, так же тяжело, как написать новый алгоритм поиска. Так что особые претензии предъявлять Яндексу тут бессмысленно, по крайней мере, на данном этапе. Хотя осталось множество претензий от оптимизаторов, что алгоритм Яндекса неверно определил первоисточник, и сайты, владельцы которых не побрезговали прибегнуть к плагиату, находятся выше, чем первоисточник. Будем надеяться, что усовершенствование этого классификатора у них в первоочередном списке задач.

2) Классификатор порнографии
С данным классификатором менее понятно. Кто-то уже предполагал, что классифицировать будут по типам сношения, но в это мало верится. .
Скорее всего, по запросу «порно» стараются отсеивать сайты, содержащие «детское порно», и прочий материал, нарушающий УК РФ.
3) Геоклассификатор запроса
Данный классификатор оказался наиболее интересным и умным, хотя и он не без недочетов. Как всем известно, безошибочно работает либо совсем простой скрипт, либо очень маленький, ну а таких в Яндексе мало.

Основная задача данного классификатора – правильное определение региональной принадлежности сайта, что приводит к более качественному региональному поиску и поиску по региональным запросам (не путать с региональным поиском).

Рассмотрим качество регионального поиска.

Не так давно была такая необходимость найти баню в г. Вологда. К сожалению, через поиск в Яндексе сделать это не получилось, весь топ занят предложениями о постройке бань и саун и ни одного сайта, где можно найти адрес бани в г. Вологда.

Релиз Магадана 2.0 и его классификаторов в решении данного вопроса мне не помог. Как были одни предложения о постройке, так и остались. Конечно, данный пример претендовать на репрезентативность не может, для этого необходимо проводить отдельные исследования выдачи, чем и должны заниматься сотрудники Яндекса.

Теперь посмотрим влияние региональной принадлежности сайта на региональные запросы.
Если вы ищете по запросу «работа в питере», то предпочтительно будут выдаваться питерские сайты.Если сайт находится в Яндекс.Каталоге, то с определением региона проблем не возникает – его задают вручную, при добавлении в ЯК. Определение региона для сайтов, не входящих в ЯК, скорее всего, происходит следующим образом:
1. Проверяем регион по geoip: влияние этих данных минимально.
2. Проверяем контакты на сайте: здесь влияет, как указание города и страны, так и контактного телефона (код региона и страны), так же учитывается почтовый индекс. По всей видимости, фактор контактов имеет наибольшее значение, при определении региона сайта (компании владельца сайта).
3. Если в контактах нет ничего подходящего, например, на странице контактов размещена лишь форма обратной связи, то смотрим вхождения на сайте названий регионов и городов, телефонов и других данных, которые могут помочь в определении региона, и отдаем предпочтение наиболее часто встречаемому.

Несколько запросов для примера:

«работа в питере»
«ноутбуки Челябинск»
«продвижение сайтов Лондон»
«недвижимость во Франции (например, сайт www.bellesdemeures.ru , находящийся на 5 позиции, где всего одно вхождение в контенте и в контактах парижский номер телефона. Вывод делайте сами).

4) Классификатор коммерциализированности запросов.
По этому классификатору уже не мало говорили. Но почему-то все предположения были банальные и неглубокомысленные, из разряда:
«купить ноутбук», «продать машину» – коммерциализированные запросы,
«ноутбук», «авто» – некоммерциализированный запрос.
По моему мнению, данные рассуждения слишком наивны.

В блоге Яндекса уже писали:
«Списки пар слов, входящих в отношения, собирались автоматически по текстам всего Интернета зоны .ru и по логам поисковых запросов» . Из этих слов можно сделать вывод, что в данных релизах алгоритмов ведутся работы по контентному ранжированию.

Скорее всего, точно так же в полуавтоматическом режиме и классифицировались запросы на коммерциализированные и некоммерциализированные, и в помощь для решения данной задачи также была использована база пар слов, входящих в отношения.
То есть запросы: «продвижение сайтов», «ремонт авто», «вывоз мусора», «недвижимость в Испании» – коммерциализированные; а запросы из разряда: «любовь», «цитаты», «Евро 2008» и т.д. – некоммерциализированные.

Для чего это нужно?

По моему мнению, влияние возраста ссылок, доменов и подобные фильтры будут работать исключительно на коммерциализированных запросах.
А выдача по не коммерциализированным запросам не будет попадать под данные фильтры.

Соответственно, по некоммерциализированным запросам не будет пропадать актуальная информация и релевантность выдачи должна стать выше. А по коммерциализированным запросам будет так же проблематично вывести «молодой» сайт на лидирующие позиции.
Этот факт не проверен и на данный момент является исключительно моим мнением.

Влияние «свежих ссылок»

Несколько пользователей форума упорно утверждали, что в Магадан 2.0 была попытка отказаться от влияния ссылочного ранжирования, по меньшей мере «свежих» ссылок.
Просмотрев порядка 50-ти проектов, ничего подобного я не увидел. Мною замечено, что за последние полторы недели плохо «сжирались» ссылки; последние ссылки, попавшие в базу Яндекса датируются за 28.06.08, но их количество невелико, соответственно, надо ждать 1-2 апдейта и новые ссылки проиндексируются поисковиком. В связи с этим считаю, что паника по этому поводу излишня.

Кстати, в Магадан 1.0 мною также не было замечено фильтрации «свежих ссылок». Появились новые факторы, влияющие на передачу веса ссылок, эти факторы пересекаются с возрастом сайта, но напрямую не зависят от него.

Вспоминая пост «Подлетая к Магадану» в блоге Яндекса и заявление компании: «Мы увеличили число факторов ранжирования вдвое и улучшили некоторые внедренные ранее» , можно утверждать, что классификаторы являются одними из этих факторов.

Ознакомившись и проанализировав достаточно большое количество запросов (коммерциализированных и некоммерциализированных), могу сказать, текущее качество поиска и релевантность сайтов по многим запросам удовлетворительно, само собой есть к чему стремиться и что усовершенствовать.

О наболевшем

Рассказав свои мысли по поводу алгоритма Магадан 2.0, не могу не затронуть такую щепетильную тему как обещанный на осень выход нового алгоритма «Находка».

Сказать с полной уверенностью, что именно будет добавлено и изменено в этом алгоритме, сейчас вряд ли могут даже сами работники Яндекса. Если следовать текущей логике изменений алгоритмов, то следующие изменения должны затронуть факторы ссылочного ранжирования и определения уникальности контента.

Вряд ли будут добавлены новые факторы, влияющие на ссылочное, но то, что подкрутят текущие – однозначно. Вполне ожидаемо усовершенствование алгоритма определения нечетких дубликатов, т.к. по моему мнению, на данный момент, результаты этого алгоритма далеки от совершенства, что частично приводит к низкому качеству определения первоисточника. Я бы еще посоветовал поработать над алгоритмом определения дорвеев, т.к. они очень часто встречаются в выдаче.

Также, есть предложения по теме геоклассификатора – сделать более качественный поиск по конкретным станциям метро. Я не раз пытался найти информацию о компаниях, магазинах и др. с уточнением конкретной станции метро. Для усовершенствования данного поиска вполне можно использовать базу Яндекс.Адреса, которую придется немного расширить, но это не большая проблема для Яндекса.

В целом, для тех, кто работает над проектами, развивает их и старается использовать уникальный контент, серьезных перетрясок ожидать не стоит, разве что улучшение позиций.

Источник: seonews.ru