Интервью Эрика Энджа с Мэттом Каттсом. Часть III

Перевод расшифровки интервью Matt Cutts Interviewed by Eric Enge, Stone Temple Consulting

Часть I Часть II

Эрик Эндж: давай вкратце поговорим о 302 Redirect.

Мэтт Каттс: 302 созданы как временная мера. Если вы намерены поместить на сайт что-то, что пробудет там небольшое количество времени, вполне уместно использовать 302. Обычно, они не влияют на PageRank, но могут быть очень полезными. Если сайт показывает что-то на весьма короткий промежуток времени, 302 может быть идеальным решением в этой ситуации.

Эрик Эндж: а что по поводу редиректов на стороне сервера, которые отвечают «no HTTP Status Code» или «200 Status Code»?

Мэтт Каттс: если бы мы увидели только 200, мы бы сделаем заключение, что отображаемый контент был по запрашиваемой URL. Если ваш веб-сервер самостоятельно странно прописывает, мы бы не узнали об этом. Все, о чем мы бы узнали это то, что мы постарались запросить старый URL, получили бы какой-то контент и проиндексировали бы его. Мы будем индексировать его по первоначальному адресу URL.

Эрик Эндж: То есть, он работает практически как 302?

Мэтт Каттс: нет, не совсем. По сути вы «химичите» с настройками веб-сервера, чтобы отобразить контент другой страницы, вместо той, которую мы запрашивали. С нашей стороны мы видим ссылку, мы переходим по ссылке на эту страницу и запрашиваем эту страницу. Вы возвращаете нам контент и мы индексируем этот контент под той ссылкой.
Люди всегда могут делать динамические решения на стороне сервера. Можно представить CMS, которая установлена на веб сервер и не делает 301 и 302, но она будет достаточно усложнена и весьма склонна к ошибкам.

Эрик Эндж: можешь дать краткий обзор canonical tag?

Мэтт Каттс: по этому поводу стоит принять во внимание две вещи. Если вы можете снизить количество дублированного контента при помощи архитектуры сайта, это будет предпочтительней. Страницы, которые вы комбинируете не должны быть полными дубликатами, но должны повторять концепцию одного и того же продукта, или рассказывать о тесно взаимосвязанных вещах. Люди могут использовать кросс-доменный rel=canonical, который мы анонсировали в декабре.

К примеру, я могу поставить rel=canonical на свой старый школьный аккаунт, чтобы он указывал на мой сайт mattcutts.com. rel=canonical был бы удачным способом в случае, если у вас нет доступа к веб-серверу, чтобы добавить хоть какие-то виды редиректов. Хотя большинство людей используют его для дублированного контента, чтобы гарантировать, что будет проиндексирована каноническая версия страницы, а не какая-либо другая версия, которую бы не хотели индексировать.

Эрик Эндж: то есть, если кто-нибудь ссылается на страницу, на которой стоит канонический тэг, это рассматривается практически как 301 на каноническую версию страницы?

Мэтт Каттс: да, «301 для бедных» – неплохое определение. Если ваш веб-сервер может делать 301 напрямую, вы можете просто установить его, но если у вас нет доступа к веб-серверу, или настроить 301 чересчур хлопотно, то можно использовать rel=canonical.

Абсолютно нормально, если страница ссылается сама на себя с rel=canonical, и абсолютно нормально, во всяком случае, для Google, чтобы rel=canonical стоял на каждой странице сайта. Люди думают, что его можно использовать спорадически, но это не тот случай. Мы специально рассматривали ситуацию, когда каждая страница сайта содержит rel=canonical. Пока вы заботитесь о том, чтобы они указывали на правильные страницы, проблем не будет вообще.

Эрик Эндж: мне кажется, я слышал когда-то, как ты говорил, что это чересчур называть тэг canonical «директивой». Ты назвал его «подсказкой».

Мэтт Каттс: Да. Обычно команда краулинга хочет рассматривать эти вещи как «подсказки», и подавляющее количество времени мы тратим на совещания по этому поводу. Если вы назовете это «директивой», вы будете чувствовать что-то вроде обязательства, во что бы то ни стало придерживаться ее, но команда краулинга и индексирования хочет зарезервировать финальное право определять, когда владелец сайта случайно вредит себе и не прислушивается к правилам rel=canonical. Подавляющее количество времени люди должны понимать эффекты rel=canonical. Если мы можем сказать, что они не понимают, мы можем его игнорировать.

Эрик Эндж: Инструмент Webmaster Tools “ignore parameters” другой способ эффективно делать то, что делает «канонический» тэг.

Мэтт Каттс: Да, в основном это так. Это хорошо, потому что robots.txt может быть немного невнятным из-за того, что если вы заблокируете страницу от краулинга, и мы до нее не доберемся, мы не сможем рассматривать ее как дублирующую версию другой страницы. Но если вы укажете в веб-мастерской консоли, какие параметры URL не нужно учитывать, это может принести нам пользу.

Эрик Эндж: Давай немного поговорим о KML-файлах. Допустимо ли помещать эти страницы в robots.txt, чтобы сэкономить краулинговый бюджет?

Мэтт Каттс: я бы не рекомендовал делать это. Лучший совет, который исходит от команды краулинга и индексирования состоит в том, чтобы дать Google прокраулировать страницы сайта, которые вам нужны, а мы постараемся де-дублировать их. Вы можете попытаться исправить это заранее при помощи архитектуры или 301, но если вы стараетесь заблокировать что-то из robots.txt, зачастую мы все равно увидим эту ссылку и сохраним ее в нашем индексе. Поэтому, это не обязательно сэкономит бюджет краулинга. Это достаточно интересно, потому что Google попытается прокраулировать кучу разных страниц, даже не HTML расширения, и по факту, он прокраулирует также и файлы KML.

Что мы можем рекомендовать, это просто разрешить Googlebot прокраулировать эти страницы и затем де-дублировать их с нашей стороны. Или, если у вас есть такая возможность, вы можете использовать архитектуру сайта для исправления всех проблем с дублированием контента. Если на вашем сайте болееs 50% KML-файлов или у вас есть диспропорционально большое количество шрифтов, которые вы не хотите краулировать, вы, конечно, можете использовать robots.txt. Robots.txt действительно позволяет поставить символ обобщения внутри индивидуальных директив, так, чтобы вы могли блокировать их. Для большинства сайтов, которые состоят практически из одних HTML-страниц с небольшими вкраплениями страниц другого формата или файлов другого расширения, я бы рекомендовал позволить Googlebot прокраулировать их.

Эрик Эндж: это поможет вам избегнуть махинаций, если эти страницы составляют малый процент от общего числа.

Мэтт Каттс: Верно.

Источник: www.searchengines.ru