Ноя
Optimization.ru 2012: исследования алгоритмов поисковых машин
В конце второго дня конференции «Поисковая оптимизация и продвижение сайтов в интернете» (Optimization.ru-2012), прошедшей 22-23 ноября в Москве, состоялась из самых интересных секций конференции «Исследования поисковых машин и алгоритмов».
Первый докладчик Игорь Чуркин (Intelsib), который много лет занимается аналитикой поисковых систем, представил доклад на тему «Поапдейтные сигналы поисковых систем». Игорь предложил схему, демонстрирующую причины, повлиявшие на изменение позиций сайта в поисковых системах.
Какими методами мы получаем информацию о факторах ранжирования? Экспертная оценка с последующим усреднением полученных результатов (как правило, этот способ не дает никаких серьезных результатов).
Можно спросить у Яндекса. Игорь привел частотность запросов, связанных с факторами ранжирования сайтов.
Кембрийский анализ (анализ основных показателей ресурсов, находящихся в ТОПе, оценка различных показателей этих ресурсов и изучение влияния этих показателей на динамику сайтов в ТОПе) — этот вариант довольно долго работал. Но со временем оптимизаторы стали отмечать усложнение взаимосвязи с различными факторами, что сделало невозможным отслеживание влияния тех или иных факторов на выдачу. К тому же подобный анализ доступен для сравнения небольшого числа ресурсов из-за отсутствия возможности автоматизации. Все это заставило SEO-специалистов отказаться от такого способа.
Постепенно стали переходить к созданию базы экспериментальных сайтов, но результаты тоже оказываются не совсем верными. К тому же методы был достаточно трудоемким. Удавалось анализировать не более 10 факторов, а для анализа использовать не менее 20 тысяч страниц. К тому же нельзя было гарантировать стабильную индексацию исследуемых ресурсов. В итоге исследователи пришли к необходимости анализа собственных проектов (сайтов клиентов), так называемый анализ по «боевым» проектам:
В рамках метода анализировалось два типа проектов: клиентские сайты, по которым у аналитиков имелась полная информация, что обеспечивало наиболее полные и достоверные результаты; и сайты конкурентов, информация о которых была менее полной, но более объемной.
Анализ связок запрос — страница — сайт позволил выявить 200 факторов, половина из которых, по мнению докладчика, просто придумана. При более тщательном анализе собственных проектов компании удалось выявить более 400 различных факторов.
В рамках анализа применялись поапдейтные таблицы, фиксирующие сигналы поисковых систем об изменениях в ранжирующем алгоритме. Все апдейты в таблице разделены на шесть основных групп:
Но, к сожалению, эти таблицы не дают исследователям никакого понимания о том, что именно нужно менять на сайте.
Игорь Чуркин с командой проводит и поапдейтную диагностику. За 2012 год было выявлено около 50 значимых изменений поисковой выдачи, из них 24 апдейта ранжирующей формулы, из них 14 апдейтов не сопровождались обновлением поискового индекса. Это позволило исследователям сделать вывод о том, что нет непосредственной связи между механизмом ранжирования и поисковой базой. С использованием гибридной нейронной сети и анализа сайтов, пострадавших от апдейтов, при помощи этого инструмента, исследователи получают вес тех или иных факторов, оказавших влияние на падение ресурса.
Это позволяет предоставить SEO-специалисту список показателей, которые необходимо изменить на сайте, чтобы вернуть его позиции. Система поэтому и является полуавтоматической, поскольку принять решение о том, что уже делать после выявления этих показателей. Система дает следующие результаты:
Модель используется не только для анализа выпавших из топа сайтов, но также и для контроля первичной оптимизации новых проектов и для оценки вероятности вывода ресурса в ТОП по тем или иным запросам.
Вопросы из зала:
Сергей Людкевич: вы охарактеризовали параметры, которые анализируете по отношению к сайту, и один из показателей — параметр кликовых факторов. Как вы замеряете?
Игорь Чуркин: из Вебмастера Яндекса.
Сергей Людкевич: а как собрать по тем, которые не ваши, но в ТОПе?
Игорь Чуркин: ну у нас этой информации нет.
Сергей Людкевич: а спектральную примесь тоже анализируете?
Игорь Чуркин: нет, при анализе примесь убираем.
Зал: большая часть факторов не может быть изменена вами, например, возраст. И большая часть значимых факторов не поддается влиянию? Какое количество факторов вы выделяете, и на какие можно воздействовать?
Игорь Чуркин: это широко известные факторы. Сам перечень составляется достаточно эмпирически. Часть факторов за год анализа ни разу не стреляли. Но значит ли это, что Яндекс и в дальнейшем не будет их учитывать? Не знаю, но в базе у нас они есть. По поводу взаимосвязи факторов: давно прошли те времена, когда можно было накрутить один фактор и получить хорошие позиции. Вот благодаря нашей сетки мы можем получить реальное значение тех факторов, на который мы можем повлиять.
Зал: а каково количество реально значимых для поисковой системы факторов, которые оказывают влияние на выдачу, как вы считаете?
Игорь Чуркин: мы выявили порядка 60 факторов, которые реально оказывают влияние. Все несколько варьируется от апдейта к апдейту.
Зал: вы сказали, что за полгода 2012 года произошло 24 изменения алгоритма ранжирования, но не происходит апдейт поисковой базы. Как вы распознаете изменение алгоритма?
Игорь Чуркин: по нашей базе сайтов составляется сигнальная таблица сравнения факторов и их влияния, то есть, по изменению в выдаче.
Виталий Шаповалов: Сейчас выводимость по рынку 30-40%, а когда видишь 80-90, то вспоминаешь, как агрегаторы обещали высокие проценты и ожидалось, что скоро будет 110-120%. Какова объективная ценность ваших исследований?
Игорь Чуркин: методика сейчас дорабатывается, чтобы можно было применять ее для всех сайтов.
Зал: А что с Google?
Игорь Чуркин: мы пока собираем статистику, но никак не можем запустить систему под Google, у нас не хватает то времени, то людей.
Михаил Козлов: А вы не планируете получать пользовательские данные и анализировать их тоже?
Игорь Чуркин: Это у нас есть в плане, но серьезно к этому еще не подходили.
Следующий доклад представила Наталья Неелова (Ingate) на тему «Как измерить релевантность контента». Оценка контента — одна из главных составляющих формулы релевантности. Совместно с Тульским государственным университетом компания, где работает Наталья, провела исследование, в рамках которого рассмотрела сайты как математическую модель в векторном пространстве, и представила сайты в упорядоченной модели векторов, с определяющей функцией по принципу «больше-меньше». Сначала определились с параметрами анализа выдачи, отобрав те показатели, которые на самом деле работают и оказывают влияние.
Для анализа была выбрана обычная линейная модель. Разложив все анализируемые ресурсы по векторам и используя модель максимального удаления объектов друг от друга исследователи получили любопытные результаты. В анализе учитывалось около 100 признаков и 500 признаков на 20 различных множествах поисковых запросов. Для обучения алгоритма была использована выборка, состоящая из результатов ранжирования сайтов по одному поисковому запросу.
Всю полученную модель применили на практике на клиенте, который продвигался в тематике шиномонтаж.
Метод позволил выявить факторы, оказывающие влияние на нахождение ресурса в выдаче.
Построение алгоритма тематической полноты страницы по сравнению с самим ресурсом. Положительно влияющими факторами были также перенос домена и тематическая насыщенность.
Были выявлены и негативные факторы:
Текст для влияния на эти факторы анализировался в соответствии с признаками Павлова
что позволяло получить ответ — естественным является текст или генерированным (например, машинный перевод).
В завершении Наталья отметила, что такой глобальный анализ интересен в исследовательской сфере. В обычной практике достаточно простых инструментов:
Постраничное сравнение можно просто делать при помощи расширенного поиска. Для анализа текстовой полноты сравнивать изменение запросов. А также использовать стандартные инструменты, которые обычно помогают в работе оптимизаторам: Яндекс.Метрику, Google Analytics и инструменты для вебмастеров, предлагаемые поисковыми системами.
Вопросы из зала:
Сергей Людкевич: доклад посвящен контенту. Вот из этих факторов, которые помогают вам анализировать алгоритм ранжирования — это только текстовые факторы?
Наталья Неелова: да.
Сергей Людкевич: А оцениваете вы всю выдачу, куда влияют все факторы, и поведенческие и т. п.? Наталья Неелова: да. Сергей Людкевич: так как же можно так анализировать с таким мощным шумом?
Наталья Неелова: я оговорилась, что мы анализировали только один запрос и не можем гарантировать 100% точности из-за неучета кучи других факторов?
Зал: вы использовали 2 набора факторов, один из 100, другой — из 500.
Наталья Неелова: у нас при 100 факторах появилась ошибка меньше ,чем при 500, так как мы 500 факторов выявляли экспертным путем, а 100 мы выбрали на основе стандартных известных факторов.
Зал: а какие были не текстовые из 100?
Наталья Неелова: Яндекс.Каталог, возраст домена, но не входили поведенческие.
Михаил Козлов: а почему вы уверены, что факторов 100, может Яндекс от нас скрывает, что их 500 или больше? Мы же исследуем неизвестное.
Завершил секцию «Исследование поисковых машин и алгоритмов» Сергей Людкевич, начальник отдела аналитики WebEffector с коротким, но практически полезным докладом «Использование возможностей языка запросов Яндекса для исследовательских задач». В рамках доклада Сергей Людкевич представил некоторые конструкции, которые позволяют решить некоторые исследовательские задачи, актуальные для SEO-аналитиков и SEO-специалистов, как, например, исключение спектральной примеси, определение возраста документа, выявление региональной принадлежности страниц и сайта (в некоторых сложных случаях), определение аффилиатов и т.п.
Язык запросов Яндекса некогда был очень богат и позволял решать любые задачи. Но со временем Яндекс стал урезать функции языка запросов. В 2007 году исчезли операторы анкор и линк, которые в связке давали полезную информацию. Позже исчезли операторы одинарное и двойное двоеточие, оператор мягкости и так далее. Кое что осталось, и Сергей высказал свою надежду, что дальше урезания уже не будет. С изменением алгоритма ранжирования изменились и задачи исследователей и SEO-аналитиков. Например, появилась задача отключения спектральной примеси, чтобы анализировать только органическую выдачу.
Основная задача аналитиков — исключить спектральную примесь. До мая этого года примесь обладала рядом параметров, которые позволяли быстро выявлять сайты спектральной примеси. Но в мае ситуация изменилась, тогда для анализа стали применять модификацию поискового запроса, которая не считалась бы изменением запроса для органики, но исключала бы спектральную примесь из выдачи. Простой способ, добавление к запросу значка «@».
Другая задача — отключение фильтра аффилиатов. То есть, разгруппировка результатов поиска (когда поиском группируются страницы нескольких сайтов, которые считаются аффилированными). В результате проведенного анализа был найден способ отключения:
Этот способ позволяет не меняя базовый запрос и не меняя базовую группу сайтов, добавив в запрос оператор site, выявить группу. Этот анализ хорош для тех случаев, когда сайт долго продвигается, оптимизируется, но не двигается в выдаче. Возможно, продвигаемый сайт аффилирован с каким-то другим ресурсом. Проверка — поочередное исключение потенциальных аффилиатов, которые выше продвигаемого сайта, из выдачи.
Следующая задача — определение региона принадлежности страницы. Ранее выявлять регион было очень просто, проставив галочку региона в поиске. Но сейчас это не всегда работает. Проблема актуальна для ресурсов, не содержащих на страницах название города и адрес в каком-либо регионе. В вебмастере есть ссылка:
Анализ позволил выработать запрос, дающий возможность определить регион страницы сайта:
Сергей Людкевич представил аудитории еще ряд запросов, позволяющих определить те или иные параметры страницы в выдаче:
Пример отключения фильтра на одинаковые сниппеты:
После окончания секции состоялся круглый стол об изменениях на рынке поисковой оптимизации, о котором мы расскажем в одном из следующих наших обзоров.
Источник: www.searchengines.ru