RIW 2010: «Автоматизация анализа внутренних и поведенческих факторов»

Вопрос автоматизации анализа внутренних и поведенческих факторов встал перед нашей компанией, когда мы начали делать работы по внутренней оптимизации для крупных сайтов и порталов. Изначально, это были какие-то небольшие скрипты, которые, в итоге, выросли в огромный программный комплекс, который я хочу вам изложить в виде схемы, похожей на очень краткое ТЗ. Этот доклад, прежде всего, предназначен для тех слушателей, которые могут позволить себе какую-то автоматизацию, для того, чтобы они смогли реализовать у себя в компании те или иные сервисы.

Итак, начать стоит с перелинковки. Для начала, я вкратце расскажу, для чего нужна эта система, и как она должна работать.

Система «перекачивает» весь сайт, даже очень большой, содержащий несколько сотен тысяч страниц. Системе, которая должна анализировать перелинковку, необходимо знать, какая страница ссылается на какую. Она должна обойти все страницы сайта, собрать большую карту сайта и сформировать базу данных. На выходе оптимизатор получит информацию о том, какие страницы ссылаются на данную, и на какие страницы ссылается данная.

Для чего это нужно. Когда вы продвигаете сайты, используя перелинковку, вам важно ссылаться на конкретные входные страницы с других внутренних страниц по тем ключевым словам, которые вы хотите продвигать на этой странице. Таким образом, вы можете наглядно увидеть, что на эту страницу идут ссылки по определенным ключевым словам.

Мы разделили все ссылки на три типа. Это сквозные ссылки, частично сквозные ссылки и перелинковка.

Сквозные ссылки и частично сквозные ссылки, как правило, это либо элементы меню, либо какая-нибудь навигационная строка. Почему я вынес их отдельно? Потому что, так или иначе, если поисковая система примет сто тысяч ссылок с ключевым словом «мебель» на страницу мебель, то она должна будет поднять эту страницу на лучшие места что, скажем, было бы не очень корректно. Естественно, сквозные ссылки воспринимаются немного иначе, поэтому при перелинковке их нужно учитывать по-другому.

Частично сквозные ссылки – это ссылки, которые являются сквозными для некоего раздела. Например, у вас на главной странице есть меню, а на странице «разделы» в этом меню есть вложенное подменю, доступное только со страниц этого раздела. Их также нужно отсекать. Когда мы строили график распределения подобных страниц по сайту, то выяснили, что это довольно легко сделать программными методами, потому что, так или иначе, можно найти некий порог, на котором отсекаются все входящие ссылки.

Два порога, которые вы видите: нижний порог – для частично сквозных ссылок. Верхний – порог для сквозных по всем страницам ссылок, т. е. для элементов меню.

Следующий фактор, который можно анализировать автоматически — это распределение весов в схеме перелинковки. Я коснусь этой темы чуть позже, если мы успеем, потому что тема достаточно объемная.

Далее, как я уже сказал — автоматически можно и нужно анализировать, какие страницы и с каким текстом ссылаются на данную, и на какие ссылается данная. Важно знать, сколько входящих ссылок на конкретную страницу, сколько исходящих ссылок с нее. Сейчас речь идет о внутренних ссылках, не о внешних. Когда этот параметр известен, мы можем найти страницы, на которых слишком много входящих. Я думаю, что многие знают, что слишком большое количество исходящих ссылок не рекомендуется, потому что страница отдает очень много веса. Особенно не рекомендуется большое количество исходящих ссылок с тех страниц, которые вы продвигаете. На них, напротив, должно идти большое количество входящих, а, в идеале, не должно быть ни одной исходящей. Таким образом, вес с этой страницы не будет уходить.

Карта сайта

Достаточно важно сгенерировать карту сайта. Это очень сложно сделать, если сайт большой. Система, которая «перекачивает» весь сайт, может в этом помочь, но нужно разделять первичную генерацию карты сайта и вторичную.

Первичная генерация – это все страницы, которые есть на сайте. На моей практике не было ни одного сайта, который не нуждался бы в существенных доработках с точки зрения удаления дубликатов, изменения адресов страниц, удаления сессий и т. д.. Соответственно, сначала мы собираем просто карту сайта, после этого мы анализируем, что нужно закрыть в , а что нужно удалить. После внесения правок мы собираем карту сайта еще раз. У нас получается карта сайта уже без «мусорных» страниц. И, очень важный момент, robots.txt и карта сайта – это взаимодополняемые инструкции, которые должны в целом составлять полный сайт. Все страницы, которые должны индексироваться, в сайтмап, а все, которые не должны – закрыты от индексации в robots.txt.

Контент

Плохо, если у вас на сайте на многих страницах дублируется контент. Потому что поисковая система понижает вес каждой страницы, когда замечает, что один и тот же контент встречается повторно. Соответственно, для того, чтобы определить это, можно сравнить фрагменты контента между собой. Мы пробовали разные способы, в итоге у нас получилось, что самый эффективный способ анализа – это разделение текста по пассажам. После удаления всех тегов остается только чистый текст, участки которого мы сравнивали между собой при помощи кодирования технологией CRC32. В результате этого сравнения мы получаем список полных или частичных дубликатов для каждой страницы.

Объем индексируемого контента

Понятно, что у нас также есть теги, которые закрывают контент от индексации. Важно автоматизировать определение страниц, на которых они есть. В частности, это позволит обнаружить какие-то ошибки. Этот инструмент, в первую очередь, нужен для первичного анализа, который позволит найти ошибки и недоработки на сайте, которые мешают корректной индексации сайта и восприятию его поисковыми системами. Соответственно, проведя анализ индексируемого контента, вы сможете найти ошибки закрытия контента от индексации. У нас был случай, когда клиент обратился в какую-то компанию по небольшим доработкам сайта, после чего сайт стал выпадать из индекса. Выяснилось, что почему-то на всех внутренних страницах им дописали мета-тег noindex, т. е. страницы были закрыты от индексации. На главной странице мета-тега не было, так что догадаться о наличии такой «доработки» было достаточно сложно.

Далее по сайту. Достаточно важен также процент уникальных страниц. Допустим, у вас интернет-магазин или какая-то фотогалерея и у вас нет контента на страницах. Такое бывает довольно часто. Яндекс может воспринимать все эти страницы как одинаковые, потому что не может найти между ними различия. Мы анализировали много сайтов, когда тестировали систему, и получилось, что часто как раз на интернет-магазинах, где мало описания или его практически нет (допустим, цена, картинка, название товара), одинаковых страниц очень много.

Анализ HTML кода

Мы сканируем весь сайт, выстраиваем таблицу содержимого h1-h6, strong, em. Это позволяет вам увидеть, на каких страницах корректно прописана информация, а на каких нет. Соответственно, на выходе достаточно просто сделать рекомендации для разработчиков или web-мастеров, что, где поправить, используя для больших сайтов автоматический режим. В теге это анализ keywords, description и title. Мы не рекомендуем использовать одинаковые тайтлы на страницах. Особенно часто это встречается там, где на страницах размещен практически идентичный контент. Тайтлы нужно использовать разные, это очень легко автоматизировать, если тайтл будет формироваться из элементов навигационной строки или хотя бы к нему будет попадать h1. Как я уже говорил, нужно проводить анализ наличия тегов noindex , nofollow, для того чтобы определить страницы, где что-то не так.

Сравнение с топом

Как сегодня уже говорили, технология Матрикснет подразумевает свои правила для разных тематик. То, что характерно для одной тематики, может быть нехарактерно для другой тематики. Соответственно, всю ту информацию, которую мы только что получили, содержимое тегов h1, strong и т. д., нам нужно проецировать на наших конкурентов, которые уже в топе. Соответственно, система должна сканировать сайты, которые находятся в топе по тем или иным запросам, по тем или иным страницам, и смотреть, что у них на страницах: что у них в стронгах, что у них в h1, что у них в тайтлах. Мы используем медиану. Это позволяет автоматизированно составить ТЗ для крупных сайтов, выяснять, что, где, как нужно поменять, где, сколько нужно добавить ключевых слов и т. д.

Если сайт маленький, сделать это можно вручную, если сайт очень большой, то для того, чтобы он продвигался по большому количеству низкочастотных запросов, нужно дорабатывать очень большое количество страниц. Без каких-либо инструментов сделать это очень сложно.

Наконец, поведенческий фактор, тема очень интересная, так как несколько человек у меня уже спрашивали именно про нее перед докладом.

Мы не стали анализировать сразу большое количество факторов, это достаточно новая область. Мы используем Google Analytics. Мы смотрим, что Google Analytics показывает по нашему сайту. Естественно, это можно использовать лишь для сайтов, которые продвигаете вы, так как вам нужен доступ к счетчику Google Analytics.

Переходы по ссылкам
Яндекс сейчас позволяет смотреть ссылочные карты: как посетитель ходит по ссылкам на сайте через Яндекс.Метрику. Разумно предположить, что если по ссылке переходят, она более важна той, по которой не переходят. Вполне возможно, Яндекс будет использовать именно этот фактор в выдаче, как определение того, стоит ли учитывать ссылку или нет. Соответственно, мы, используя Google Analytics, анализируем, как люди ходят по сайту, какие ссылки они кликают, какие нет. Те ссылки, которые кликаются, естественно, должны вести на какие-то входные страницы, которые являются продвигаемыми.

Я неоднократно сталкивался с тем, что на сайте, который продвигают, клиент не хочет менять что-то. Он говорит: «Вы сделайте отдельный раздел под SEO, продвигайте его, а у меня там красивая структура, мне ничего не нужно портить». Я думаю, что сейчас такой метод себя полностью изжил, потому что по этим ссылкам будут переходить. Человек никогда не зайдет в раздел статьи, который расположен справа внизу, мелким шрифтом, похожим на цвет фона, чтобы из этого раздела статьи попасть уже непосредственно в статью. Естественно, если вы будете продвигать такую страницу, то она не получит никакого внутреннего влияния ссылок. Кроме того, есть второй фактор – посещаемость страниц. Его также можно как-то проанализировать через Google Analytics.

Если на страницу в принципе не переходят. Есть гипотеза, которую мы сейчас проверяем. Пока мы в ней точно не уверены, это не чистый эксперимент, но то, что мы уже получили, наталкивает на мысль, что, если на страницу переходят, она имеет больший вес и отдает больший вес другим. Грубо говоря, если вы ставите ссылку с какой-то внутренней страницы, которая расположена очень глубоко и на которую никто не заходит, то, скорее всего, никакого веса она передавать и не будет. А если ставить ссылку на внутреннюю страницу раздела, по которому ходит большое количество посетителей, то эта ссылка будет иметь больший вес.

Пути перехода по сайту

Есть возможность проанализировать, как посетители ходят по сайту. Если трафика мало, то это сделать очень сложно, если трафика достаточно много, то эти пути можно отследить. Мы предлагаем анализировать процент отказов – если на странице он очень высокий, то, соответственно, система может это фиксировать, об этом сообщать, а маркетолог уже предлагает клиенту, что можно изменить, чтобы процент отказа был меньше. Здесь имеется в виду, что анализировали не одну страницу, а, допустим, некий путь, на этапе которого частота отказов значительна. Почему это важно? Потому что поисковая система Яндекс, используя Яндекс.Метрику (причем Яндекс сам заявляет, что они это используют при ранжировании), может отслеживать, что посетитель в какой-то момент уходит с сайта. Если это происходит часто, логично предположить, что Яндекс может исключить сайт, так как он не удовлетворяет желаниям посетителей. Человек зашел, походил, понял, что это не его и пошел на другой сайт. Значит, сайт нехороший и показывать его в выдаче не совсем разумно.

Постраничный анализ при правильном продвижении

Это подходит для каких-то крупных порталов, например интернет-магазина, на котором большое количество страниц карточек-товаров. Можно проанализировать сравнение между выбором тех или иных товаров, в том числе через Google Analytics, и дать рекомендации о том, что вот здесь процент отказов выше, стоит посмотреть, может что-то стоит изменить – цену понизить, что-то еще сделать, чтоб он стал более приятным.

Передача данных

Эта та область, которую мало кто затрагивает. Она является очень важной. Это мелочь, которая может пустить под откос все продвижение. Первое – коды ответов. Все страницы, которые являются входными, которые должны быть в поисковых системах, должны выдавать 200. Когда вы ставите редирект, не ставьте id302, ставьте 301. Потому что 302 – это временная страница, временная величина. Если вы удалили старую страницу, вместо нее поставили новую, поставьте 301 редирект по этому адресу, чтобы вес передался. Я неоднократно встречал конструкции 302 -> -> 302 ->301 -> 200, когда робот Яндекса просто не знает, что делать, грубо говоря, куда идти, и эта страница продвигается, на нее покупаются ссылки.

Ошибка 404

Страница ошибки 404 должна выдавать код ответа 404. Не 200, не 301 или как-то еще, как это бывает. Именно 404, потому что если она не будет выдавать 404, Яндекс ее проиндексирует как страницу, которая на самом деле существует. Это будет «мусор», который, будет на себя забирать часть веса сайта.

Отказоустойчивость

Мы столкнулись с ситуациями, когда клиент начинает проверяться или крутить контекстную рекламу, а потом в ужасе звонит и говорит, что вы сломали мой сайт, он постоянно падает. Почему так происходит – потому что хостинг у клиента не очень сильный и рекламная кампания просто «кладет» сервер. Для того чтобы этого избежать, мы рекомендуем провести тест до запуска рекламной компании. Сделать очень просто – фактически вам нужно провести небольшую DDos-атаку на сервер вашего клиента. Вы измеряете максимально возможное количество посетителей отдачи от SEO или от того же контекста, чуть-чуть завышаете это значение и запускаете на сервер кучу обращений, кучу потоков на сайт. Мы также используем прокси-сервера, потому что в некоторых случаях отрубают один ip.

В результате, вы выясняете, что сервер держит такую нагрузку или не держит. Особенно обидно бывает, когда сервер нагрузку не держит, вы этого не выяснили, а Яндекс зашел и, как раз в этот момент, была большая посещаемость. Сервер «упал», Яндекс видит, что сайт не работает, 500тые коды ответа. В этом случае Яндекс может как-то удалить сайт из выдачи, ну, скорее всего на время, пока вы не почините.

Время ответа

Гугл заявлял, что они учитывают скорость загрузки страницы как фактор ранжирования. Если страница грузится долго, то она имеет меньший вес. Я напомню, что это фактор не очень важный, но учитывая, то, что факторов в принципе много, лучше задействовать как можно большее их количество, тем более что на этот фактор очень просто повлиять. Проверка стабильности хостинга реализуется простеньким скриптом, который заходит, допустим, раз в час на сайт, если все OK, то все хорошо. Если вдруг он зашел раз – что-то не работает, зашел два – что-то не работает, то задумайтесь, возможно, что-то стоит поменять.

Исходящие ссылки

Если это крупный сайт, возможно такое, что где-то очень глубоко находится огромный раздел, на котором стоит несколько тысяч ссылок. У меня недавно была публикация на seonews.ru , там как раз описывалась ситуация, когда у клиента на сайте где-то очень глубоко нашлось наследие прошлого, страница обратных ссылок 1ps. Это система регистрации по каталогам. На странице было несколько сотен ссылок на внешние ресурсы. Яндекс ее нашел, сайт понизился в выдаче. Я не знаю, почему Яндекс ее нашел лишь через три года, после того, как она там появилась, но, тем не менее, так тоже бывает. Соответственно, автоматически анализируя количество исходящих ссылок со страниц, вы сможете отсортировать данные по всем страницам и увидеть раздел, где у вас максимальное количество, просмотреть, и если что-то не так – исправить.

Перелинковка

Мы сейчас заканчиваем реализацию инструмента, который позволяет нам выстраивать схемы смежных связей между страницами. Для чего это нужно, для чего это полезно: вы можете проследить внутри сайта, какая страница ссылается на какую, как вес распределяется между страницами. Что такое вообще схема перелинковки, почему она важна. Я рекомендую всем в обязательном порядке прочитать статью, которую написал Александр Садовский много лет назад и опубликовал еще на своем личном сайте, которая называется растолкованный PageRank. Там очень подробно описывается, как вообще работает технология PageRank. Сразу оговорюсь, что PageRank и передача весов по страницам это совершенно разные вещи. И, так или иначе, PageRank является наиболее адекватной, общедоступной и логичной информацией о том, как веса могут передаваться между страницами.

Та иллюстрация, которую вы сейчас видите, показывает, как оптимально должны идти ссылки между страницами, чтобы страницы третьего уровня имели максимальный вес. К сожалению, я здесь не успел расставить коэффициенты, но, возможно, скоро вы сможете прочитать об этом – должна выйти статья в журнале «Практика Интернет Маркетинга». Там очень большая статья по поводу внутренней перелинковки, где графики изображаются с коэффициентами. Что здесь изображено: перелинковка под НЧ запросы.

Продвижение НЧ

Главная страница ссылается на две страницы разделов. Каждая страница разделов ссылается на страницы третьего уровня, которые перелинкованы между собой. Они перелинкованы в кольцо. Таким образом, вес попадает на страницы третьего уровня и остается на них – с них он не уходит на главную страницу, с них он не уходит на страницы второго уровня. Это некая проекция, понятно, что в рамках большого сайта именно так вы никогда не реализуете, но это позволяет понять, каким образом лучше перелинковать страницы, чтобы на какую-то одну шло больше веса. Когда страница ссылается на другую, с нее вес уходит; когда на страницу ссылаются, вес на нее приходит. В идеале, должно быть так, чтобы входная страница не ссылалась никуда. На деле – чтобы она не ссылалась на какие-то лишние, ненужные страницы, а на нее ссылалось большее количество страниц.

Сейчас я покажу схему для перелинковки, под продвижение средне-частотных запросов. Почему они так называются СЧ и НЧ. Потому что НЧ мы чаще двигаем на страницы третьего уровня, четвертого, пятого и так далее. т. е. это либо страницы карточек каталогов, карточек товаров, либо страницы полной новости, например.

Продвижение СЧ

Страница второго уровня обычно двигается под СЧ, так правильней делать. В этом случае разница лишь в том, что страницы третьего уровня ссылаются обратно на страницы второго уровня. т. е. вес со страниц второго уровня уходит на страницы третьего уровня, но потом возвращается обратно.

Продвижение ВЧ

Здесь каждая страница сайта ссылается на главную, но страница третьего уровня не ссылается на страницу второго уровня.

Равномерное распределение

Эта схема идентична той, которая была представлена в первом докладе сегодняшнего дня. Эта схема больше подходит, когда вы продвигаете и ВЧ, и СЧ, и НЧ запросы по всем страницам.

Локальная схема перелинковки «Куб»

На этой схеме два кольца — слева кольцо, справа кольцо. Эти кольца между собой перелинковываются. Они перелинковываются не напрямую, они тоже замкнуты в большое кольцо. В интернете можно найти изображение этой схемы в виде куба. Кому интересно — поищите, там наглядно изображено.

Все эти схемы перелинковки – это лишь маленькая проекция. Вы можете использовать их внутри сайта. Допустим, куб можно взять и использовать среди страниц карточек-товаров, то есть у вас есть в одном разделе каталога 20 товаров. Из 20 можно выбрать восемь и так их перелинковать, это очень эффективная схема перелинковки.

Когда вы автоматически анализируете сайт большим потоком, «перекачивая» все его страницы, вы можете находить в нем такие схемы. Это очень сложно на самом деле изобразить наглядно, но, если постараться, то может получиться. При этом важно, когда вы строите ссылочные карты отсекать как раз страницы сквозные и полусквозные, иначе у вас все страницы будут на них ссылаться и не будет ничего понятно. То есть, при перелинковке вам нужно учитывать именно ссылки, предназначенные для перелинковки.

В целом, наверное, все; могу еще показать, что нужно, чтобы такую систему сделать. Система рассчитана на то, чтобы она могла «перекачивать» сайты и анализировать до миллиона страниц. Система сделана на технологии map reduce ,в ней используется пять обработчиков и один распределитель. Система использует большое количество прокси-серверов, и писалась достаточно долго. При этом не все модули такой системы могут анализировать большие сайты. Например, обработчик контента. Как бы мы не старались, у нас получилось анализировать порядка 150-200 тысяч страниц максимум, сравнивая между собой все страницы, при текущих мощностях, за сутки.

Вопрос из зала: Скажите, есть ли у вас рекомендации по запрету индексации ссылок, которые не относятся к навигации

Леонид Гроховский: Я рекомендую это делать там, где у вас страница является входной, чтобы с нее вес не уходил.

Вопрос из зала (Алексей Жуков, «Новотех»): То, что вы сейчас рассказывали, это статья, в переводе Садовского «Растолкованный PageRank». О чем доклад? Это 2005 год. Такие системы уже существуют давно.

Леонид Гроховский: 2001 год. Доклад о том, как автоматизировать поведенческие факторы. Я рассказал о нашем опыте создания такой системы. К сожалению, мне сложно изложить
реализацию каждого модуля за полчаса, так как мы делали эту систему 8 месяцев. Если есть вопросы по конкретным модулям, я могу рассказать более подробно.

Алексей Жуков: Есть программа Page weight которая делает все это достаточно хорошо и существует уже давно.

Леонид Гроховский: Она может перекачать несколько сотен тысяч страниц и проделать такую работу?

Алексей Жуков: Все зависит от мощности вашего компьютера.

Леонид Гроховский: Ни на одном компьютере вы не сможете это сделать, semonitor «ложится» на сайте уже с 10 000 страниц.

Алексей Жуков: Я выкачивал порядка 40 000 страниц спокойно. Ксенум выкачивает практически без ограничений, пока сервер не ляжет. Сервер там, где лежит сайт.

Леонид Гроховский: Я вас понял, здесь вопрос в глубине обработки, мы для этого используем 5 серверов, это очень мощные машины, имеющие 4-х процессорные системы.

Алексей Жуков: Ксенум выкачивает ВСЁ! Не только страницы, но и картинки, яваскрипты! В чем смысл системы? В чем смысл доклада! Это всё старье!

Сидорин Дмитрий (ведущий): Ну, на самом деле, я бы не был так критичен. Давайте может быть вы после доклада продолжите… Вообще, на самом деле, я вот хотел уточнить, ты рассказал про критические факторы и хорошие инструменты GA. Много факторов было, а вот что-нибудь такое подручное для оптимизаторов.

Леонид Гроховский: Мы, к сожалению, не знаем доступных систем, которые могут делать это в потоковом режиме для большого количества страниц на сайте, но это в принципе все можно делать вручную. Вручную это можно делать особенно в том случае, если у вас сайт не очень большой и есть какие-нибудь основные входные страницы, которые вы хотите проанализировать, не анализируя весь сайт, грубо говоря. Например, в Яндексе есть система Яндекс.Метрика, она позволяет посмотреть, как кликают по каким-то ссылкам посетители. GA так же позволяет проанализировать, как посетители переходят по сайту. Вы можете настроить цели. То есть, там есть довольно большое количество инструментов, которые именно под это заточены. Если я не ошибаюсь, сейчас проводится множество бесплатных семинаров, множество какой-то образовательной деятельностью направленной на GA. Я всем рекомендую это изучить, потому что это очень мощный инструмент, который позволяет анализировать поведенческие факторы достаточно эффективно.

Сидорин Дмитрий: А вот помимо поведенческих факторов, контент, теги, как вы «выкачиваете», как это возможно?

Леонид Гроховский: Можно сделать очень простой парсер для небольших сайтов, он может выкачать все страницы сайта и по ним все сделать. То есть, в принципе, я рассказывал по порядку. Блок анализ HTML тегов для небольшого сайта очень легко реализуется. Это может сделать программист, очень быстро, буквально за неделю. Если у вас не будет больших серверных мощностей, то вы сможете проанализировать даже небольшой сайт. Я готов подсказать, если что.

Смурыгов Андрей, Rookee.ru: Просто я сначала не присутствовал, что это за система, где ее можно посмотреть.

Леонид Гроховский: Это наша внутренняя система.

Смурыгов Андрей: Она не паблик, она не используется, не продается?

Леонид Гроховский: Это не паблик, мы, в принципе, можем с вами обсудить её использование. Но дело в том, что эта система, она в некоторой степени нестабильна, она работает с большим количеством данных, с большим количеством сайтов. Зачастую для того или иного сайта нам приходится делать какие-то ручные настройки и править какие-то модули. Она потянет на большой объем, но для того, чтобы ей пользоваться, нужно иметь определенные знания. Есть программа для внутреннего пользования, есть программа коммерческая, которой сможет пользоваться каждый. Для того, чтобы сделать коммерческую, нужно очень много дописывать, больше, чем сама система, чтоб она была понятна обычному человеку.

Смурыгов Андрей: Поведенческие факторы, как я понимаю, здесь построены на основе GA, на тех возможностях, которые она дает. Насколько сейчас высока корреляция между теми возможностями, которая она дает и тем, как это теоретически должно быть учитываться в Яндексе.

Леонид Гроховский: Мы не анализируем Яндекс.Метрику, мы используем именно GA, мне кажется это инструмент универсальный, он работает не только для Google. Вы же его используете для того, чтобы отследить какие-то тенденции, чтобы получить информацию. Эта информация может быть факторами ранжирования в любой поисковой системе, это не привязано к Google. Это применимо для Яндекса.

Смурыгов Андрей: Сейчас очень много наших клиентов присылает нам замечания, пожелания и т.д. Они говорят, что не достаточно топ-10, что нужно дать более конкретное сравнение, то есть делать топ-30, топ-50, еще какие-то запросы. Твое мнение, топ-10 достаточно или же надо увеличивать?

Леонид Гроховский: Это зависит от факторов. Например, когда я анализирую возраст сайтов: допустим, приходит сайт по тематике, которая может быть не очень конкурентной. Нужно проанализировать, насколько возраст этого сайта сопоставим с возрастом тех сайтов, которые уже находятся в топе. Тогда, я думаю, топ-10 нецелесообразен, нужно хотя бы топ-30 или топ-100. Я привел лишь пример с возрастом. Для тех или иных факторов могут быть другие значения. Я думаю, для анализа тайтлов вполне достаточно будет топ-10.

Ефиненко Максим, компания «Гамбит»: Почему Google иногда заходит на те страницы, которые запрещены к индексированию, как так может быть?

Леонид Гроховский: Любые директивы запрета индексациии, являются лишь рекомендацией для поисковой системы. То есть, поисковая система оставляет за собой право им следовать или не следовать. Если вы посмотрите описание в поисковых системах, то вы увидите, что там так написано. Тем не менее, по моему опыту, даже если она заходит на эти страницы, она все равно их не показывает в индексе.

Источник: www.searchengines.ru