Эволюция поисковых алгоритмов Яндекса

Яндекс, на данный момент, – самая популярная поисковая система Рунета. По данным статистики LiveInternet, доля Яндекса в разрезе всей российской аудитории составляет 53,4%, а если рассматривать только Москву и область, то еще выше – 67,9%.

Немудрено, что большинство компаний предлагают продвижение именно в этой поисковой системе. Наша компания – не исключение.

Лично я занимаюсь продвижением в Яндексе уже около 5 лет и за это время усвоил множество тонкостей в работе данного поисковика. В свое время даже удалось поработать над прототипом небольшой поисковой системы, сделанной по образу и подобию Яндекса.

Нам кажется, что клиенты тоже должны иметь определенное представление о том, как функционирует Яндекс и в частности – особенности работы алгоритма ранжирования данной поисковой системы.

Если Вам интересно знать:

как устроен Яндекс
почему продвижение некоторых запросов стоит так дорого,
почему в Подмосковье выдача Яндекса отличается от Московской,
почему некоторые запросы не растут и требуется пересмотр семантического ядра,

то читайте нашу статью!

Яндекс как поисковая система

Прежде чем пускаться в алгоритмические дебри, давайте вспомним, а как вообще устроена поисковая система.

Логическую структуру поисковой системы можно представить в виде трех модулей:

Робот (краулер, crawler) – специальная программа, которая обходит интернет-сайты и загружает их содержимое. У робота есть специальное расписание, согласно которому он осуществляет свой обход.

Страницы сайта, загруженные роботом, специальным образом обрабатываются и помещаются на хранение в базу данных. Может быть, вас удивит этот факт, но на данный момент Яндекс хранит содержимое более чем 5 миллиардов страниц в своей базе! Это гигантские объемы информации, и для их хранения используются специальные сервера.

Самая важная часть поисковой системы – клиентская, которая отвечает за обработку запросов пользователей и выдачу им результатов поиска. Ежедневно Яндекс обрабатывает более 50 млн пользовательских запросов! Для того чтобы выдавать на каждый запрос пользователя релевантные результаты, Яндекс ищет в своей базе все документы, отвечающие на запрос пользователя и выдает те, которые лучше всего отвечают на запрос. При этом в выдаче поисковой системы все сайты отсортированы по убыванию их релевантности запросу пользователю.

Качество работы поисковой системы определятся ее умением находить наилучшие ответы на запросы пользователей. Тут мы и приходим к такому понятию как алгоритм ранжирования.

Алгоритм ранжирования – это система математических формул для оценки определенных факторов, на базе которой поисковая система присваивает сайту (странице) определенный рейтинг. В качестве факторов выступают различные показатели, характеризующие документ: наличие слов из запроса, наличие ссылок на документ, авторитетность сайта и др.

На данный момент в Яндексе используется алгоритм ранжирования, который учитывает около 250 различных факторов.

Итак, представим упрощенно, что происходит в Яндексе, когда пользователь задает запрос, например, «пластиковые окна».

Запрос обрабатывается синтаксическим анализатором, приводится к начальной форме.

Далее по базе ищутся все документы, содержащие слова «пластиковый» и «окно». Естественно, Яндекс не производит прямой поиск информации по всем 5 млрд. документов в базе. Вся информация содержится в виде т.н. «обратного индекса» (см. рисунок ниже), т.е. для каждого слова указаны порядковые номера документов, где содержится это слово и позиции данного слова в документе.

После этого определяется релевантность каждого документа запросу, т.е. для всех 12 млн. документов, которые содержат слова «пластиковый» и «окно» считается значение релевантности. Далее документы ранжируются по убыванию релевантности, и формируется выдача.

На рисунке ниже представлена самая простая схема устройства обратного индекса. Естественно, в поисковых системах используются дополнительно различные методы оптимизации данной структуры, но я думаю, основной принцип понятен.

Аналогом обратного индекса является, например, алфавитный указатель в книге, где указано, на какой странице встречается тот или иной термин и вы можете с легкостью найти информацию, не пролистывая всю книгу.

Как мы видим – алгоритм ранжирования – это одна из основных частей поисковой системы. Давайте теперь посмотрим, какие изменения претерпевал алгоритм Яндекса, и более подробно остановимся на последней версии алгоритма и особенностях продвижения в Яндексе в настоящее время.

Алгоритмы Яндекса

С лета 2007 года Яндекс начал анонсировать широкой публике изменения своего алгоритма ранжирования. Предвестником новых алгоритмов стало сообщение в блоге Яндекса.

Давайте проследим от начала до конца историю этих изменений и посмотрим, как это сказалось на продвижении сайтов как услуге.

Магадан

14 апреля 2008 года по адресу buki.yandex.ru начал тестироваться новый поисковый алгоритм «Магадан». Кроме того, что увеличилось вдвое количество факторов ранжирования, были также добавлены следующие нововведения:

Яндекс начал понимать аббревиатуры, т.е. если пользователь искал «МГУ», Яндекс понимал, что пользователю интересен «Московский Государственный университет». Также начали обрабатываться написания транслитом – например, запросы «Мазда» и «Mazda» стали практически тождественны, а результаты поиска по запросам стали схожими.

Также Яндекс научился распознавать переходы из одной части речи в другую, например, для существительного «продвижение» переходом стал глагол «продвинуть», т.е. при поиске по запросу «продвинуть сайт» релевантным стали документы, содержащие слова «продвижение сайтов». В итоге учет слов-переходов вылился в то, что продвижение по всем запросам, содержащим слова-переходы, стало дороже – ведь теперь нужно конкурировать не только с теми сайтами, которые продвигаются непосредственно по вашему ключевому слову, но и с теми, кто продвигается по слову-переходу.

По словам Яндекса, было «улучшено ранжирование по запросам, слова которых в релевантных документах идут далеко друг от друга, например, «хармс цирк вертунов»». Правда, на деле это вылилось в такую ситуацию, что поиск по многим многословным запросам начал выдавать результаты хуже – в выдаче стали появляться более авторитетные сайты, но с плохим текстовым содержимым. Из-за попадания таких сайтов в топ, конкуренция по низкочастотным запросам усилилась.

Яндекс начал массово индексировать зарубежные сайты (примерно 1 млрд страниц на зарубежных языках было добавлено в индекс). Это привело к усилению конкуренции по запросам, содержащим только иностранные слова, так как в выдаче начали появляться зарубежные сайты.

Итоговый релиз «Магадана» состоялся 16 мая и сопровождался практически недельной тряской в выдаче – позиции по запросам постоянно менялись, то взлетая в топ, то пропадая из выдачи.

Находка

Тестирование новой версии алгоритма Яндекса началось 9 июля 2008 года. По заявлениям Яндекса, «основные изменения в программе связаны с новым подходом к машинному обучению и, как следствие, отличиями в способе учета факторов ранжирования в формуле».

11 сентября 2008 года Находка появилась в основной выдаче.

Из нововведений, внедренных Яндексом, можно отметить следующие:

Улучшилось ранжирование по запросам, содержащим стоп-слова – союзы, предлоги.

Расширился тезаурус (словарь связей). Теперь по запросу [авто ваз] найдется и [автоваз]

Также было замечено, что по ряду запросов произошло «разбавление» выдачи сайтами информационного характера. В частности, по многим запросам в выдаче начала появляться интернет-энциклопедия Википедиа.

Фактически сейчас мы уже понимаем, что тогда Яндекс сделал первый шаг по направлению увеличения разнообразия в выдаче по тем запросам, по которым пользователей интересует как коммерческая составляющая (они хотят приобрести товары и услуги), так и информационная (почитать, посмотреть…).

Логично, что такой шаг привел к усилению конкуренции по многим запросам.

Арзамас

10 апреля 2009, сразу в основном поиске, без выкладки на тестовый, в Яндексе заработала поисковая программа Арзамас.

24 июня произошел апгрейд алгоритма, и в основном поиске заработал Арзамас 1.1

А 20 августа вышла версия Арзамас 1.2 c новым классификатором гео-зависимости запросов.

Первым нововведение стало внедрение алгоритма снятия омонимии. На основании лексической статистики слов Яндекс научился определять наиболее частотную форму омонимичной фразы, а также научился по дополнительным словам из запроса определять наиболее вероятный смысл фразы. Например, при запросе «стойка лука» в результатах поиска будут сайты, где рассказана техника стрельбы из лука и в частности, описана правильная стойка при стрельбе.

Пожалуй, самое важное нововведение Арзамаса – учет региона пользователя. Теперь для пользователей, находящихся в разных регионах, выдача стала различаться, и пользователи, задававшие запрос «такси» в Москве, начали видеть сайты московских служб такси, а пользователи из Санкт-Петербурга – питерских.

В поддержку регионального поиска был создан классификатор гео-зависимости запросов. Запросы начали делиться на два типа – гео-зависимые и гео-независимые. Соответственно, по гео-зависимым запросам регион пользователя учитывался, а по гео-независимым – нет, и выдача у всех пользователей России была идентична.

Нововведения Арзамаса серьезным образом отразились на продвижении сайтов как с положительной стороны, так и с негативной:

С одной стороны, был дан толчок развитию «регионального продвижения». Теперь без особых затрат стало возможным продвижение сайтов по запросу «юридические услуги», например, в Тульской области. Раньше выдачу оккупировали московские сайты, но после Арзамаса у региональных появился отличный шанс.

С другой стороны, молодым сайтам стало еще сложнее и дольше пробиваться в топ выдачи по той причине, что у многих сайтов Яндекс не мог определить региональную принадлежность. Могло несколько месяцев продвижения уходить лишь на то, чтобы нарастить ссылочную массу и подать заявку в Яндекс на присвоение нужного региона.

Снежинск

10 ноября 2009 года Яндексом была анонсирована новая версия поискового алгоритма – Снежинск.

Коренные изменения произошли в алгоритме расчета релевантности – представители Яндекса написали следующее: «Нам удалось создать более точную и гораздо более сложную математическую модель, которая привела к существенному приросту в качестве поиска. Благодаря переработке архитектуры ранжирования в поиске удалось реализовать учет нескольких тысяч поисковых параметров для одного документа».

17 ноября алгоритм был выложен на основном поиске.

Основным нововведением Снежинска стало внедрение нового метода машинного обучения – технологии Матрикснет. Рассказ о ней – тема отдельного разговора и для полного понимания лучше прочитать первоисточник.

Нам интереснее другой момент – как же это отразилось на продвижении сайтов?

Фактически продвижение сайтов стало менее подконтрольным оптимизаторам. При том, что методика работы над проектами осталась примерно такой же, анализ результатов продвижения стал на порядок сложнее – ведь влияние отдельных факторов и показателей на позиции сайта стало практически невозможно отследить. Использование сложных зависимостей в формуле привело к тому, что в различных ситуациях изменение одного и того же показателя по-разному влияло на итоговый показатель – релевантность. Например, для молодых сайтов закупка ссылок с авторитетных площадок не давало такого эффекта, как для старых сайтов. Одни запросы можно было употреблять в тексте достаточно часто, а для других даже трехкратный повтор приводил к значительному снижению релевантности.

Яндекс, используя формулу, связал все показатели, характеризующие сайты и запросы, чтобы итоговое ранжирование было максимально релевантным. При этом отдельно взятые показатели в формуле сами по себе не несут никакого смысла – они лишь часть математической модели.

Если год-два назад можно было моделировать эксперименты, чтобы отследить влияние отдельно взятого фактора, то сейчас это во многом потеряло смысл. В идеальных условиях эксперимента анализируемый фактор действует одним образом, в условиях продвижения сайта А – уже другим образом, в условиях продвижения сайта Б – третьим.

Ранжирование по гео-зависимым и гео-независимым запросам стало отличаться еще сильнее. По многим частотным гео-независимым запросам большинство коммерческих сайтов пропало с первых позиций, уступив свое место информационным сайтам с большим текстовым содержимым (в частности, Википедии). Объясняется это тем, что гео-независимые запросы (выдача по которым для пользователей одинакова во всех регионах) отождествляются Яндексом с информационными запросами и по логике Яндекса правильнее выводить в выдачу именно информационные сайты. Сможет ли коммерческий сайт фирмы, занимающейся реализацией календарей, что-то противопоставить Википедии, Яндекс.Календарям или календарям лунным? Если запрос не очень частотный, то иногда получается вывести сайт в десятку традиционными способами, т.е. с помощью оптимизации текста и покупки ссылок.

Вывод в топ-10 молодых сайтов по высокочастотным запросам сильно усложнился и стал занимать значительно больше времени. К сожалению, большинство клиентов абсолютно не воспринимают данную особенность ранжирования в Яндексе и, несмотря ни на что, хотят вывод своего новенького сайта по запросу «скачать фильмы» в топ за месяц.

Не так давно представители Яндекса поделились своим видением того, какой должна быть выдача по запросу «пластиковые окна».

Основная мысль – «в идеальном случае хочется, чтобы на первую страницу фирмы попадали, исходя из качества услуги, которую они оказывают. Для этого, правда, придется сначала научиться оценивать качество услуги. Более простая цель – чтобы в выдачу попадали наиболее известные компании, хорошо представленные как в сети, так и в оффлайне».

Так вот, как тогда в топ может попасть сайт, сделанный месяц назад и на который никто даже не ссылается?

Даже если не рассматривать высокочастотные запросы, то часто на вывод молодого сайта все равно необходимо несколько месяцев, в течение которых сначала набирается тИЦ, а потом вручную меняется регион на московский.

В начале 2010 года произошли значительные изменения в методике анализа текстового содержимого сайтов. Страницы, насыщенные ключевыми словами, начали попадать под фильтр и исчезать из выдачи. На первый план вышел качественный копирайтинг – умение написать релевантный текст, при этом не получив санкций со стороны Яндекса.

Естественно, услуги на продвижение сайтов тоже выросли. Продвижение небольших сайтов по большому количеству запросов стало сложнее и более затратным по времени.

Появился новый тип апдейта – апдейт алгоритма Матрикснет, и соответственно уменьшилась частота «традиционных» апдейтов – текстовых и ссылочных. Теперь раз в месяц Матрикснет «обучается» – как следствие меняются позиции сайтов в выдаче без учета новой информации о проставленных ссылках и размещенных текстах.

В итоге, сейчас успех кампании по продвижению сайтов стал зависеть в большей степени от грамотно построенного производственного процесса, начиная с момента подбора запросов для сайта, продолжая четким анализом и выполнением технических и текстовых доработок и заканчивая регулярным контролем и обновлением ссылочной массы. Естественно нужно на регулярной основе отслеживать все нововведения Яндекса и корректировать стратегию продвижения.

Дополнительные фишки:

Новости в результатах поиска

Колдунщики

Фильтрация порнографии

Быстрые ссылки в сниппете

Борьба с системами clickunder (bodyclick)

Прогнозы на будущее

Как мы видим, Яндекс не стоит на месте, и я уверен, что поисковые технологии этой системы будут развиваться и дальше, чтобы повышать качество поиска, которое пока трудно назвать идеальным.

Сейчас улучшение поиска идет несколькими путями (уверен, что тенденции сохранятся):

С одной стороны, Яндекс все четче и глубже пытается понять, что хочет пользователь, задавая тот или иной вопрос. В принципе, подобрать-то формулу расчета релевантности не проблема, вопрос только, к какому результату нужно стремиться. Как раз более точное определение потребностей пользователя позволяет улучшить качество поиска. Один из важных шагов в данном направлении за последнее время – введение регионального поиска (по гео-зависимым запросам). Ведь действительно пользователям из регионов по многим запросам хотелось бы видеть как раз местные сайты, которым Яндекс и отдает приоритет.

С другой стороны, если рассматривать уже область SEO, то Яндекс пытается минимизировать влияние искусственного увеличения рейтинга сайта, в частности за счет снижения эффекта от покупных ссылок. Но снижать только по тем запросам, где это улучшает ранжирование. Яркий пример тому – сложность попадания молодого сайта в топ по частотным гео-независимым запросам, где, по мнению Яндекса, должны присутствовать сайты с объемным текстовым содержимым. Однако по многим «коммерческим» запросам влияние ссылок еще очень велико.

Одним из вариантов развития услуги продвижения сайтов в Яндексе мне видится переход к более прозрачной системе ценообразования, когда SEO-компания будет предоставлять клиентам все отчеты по себестоимости, а брать фиксированную плату только за оказанные услуги (проведение доработок, копирайтинг, аналитические исследования). Стоимость услуг будет определяться объемом работ, качеством и известностью бренда. В этом случае основной задачей SEO-компании будет анализ и отбор наиболее эффективных ключевых фраз и поиск оптимальных источников привлечения трафика на сайт.

Ну, и напоследок хочется сказать:

«Уважаемые клиенты! Будьте лояльны! Поймите, что наилучшего результата продвижения в Яндексе можно достичь только в условиях плотной совместной работы с SEO-компанией, выполняя все требования и рекомендации при продвижении, начиная с этапа подбора семантического ядра для сайта. Такой вариант, что «Вот вам N тысяч рублей, хочу топ по вот этим запросам, и сайт мой не трогайте» в нынешних условиях не приведет к успеху, деньги и время будут потрачены впустую»

Источник: seonews.ru