Становится ли веб-мастер в России «грамотнее»? (на примере анализа состояния файла robots.txt сайтов Яндекс.Каталога)

Интернет – очень динамичная среда. С момента публикации предыдущей статьи «Исследование состояния файла robots.txt сайтов Яндекс.Каталога» прошло уже два с половиной года. Это очень значимый срок. За это время многие технологии успели устареть, а те, которые раньше были лишь уделом новаторов и экспериментаторов, заняли серьёзные позиции, и без них уже сложно представить современную веб-разработку. Сайтостроительство из «кустарной» отрасли превращается в отрасль профессиональную. Как объективно изменилась грамотность вебмастеров? Мы постараемся дать ответ на этот вопрос, проанализировав состояние одного из главных файлов, отвечающих за индексацию сайта – robots.txt.

Постараемся разобраться в этом вопросе, сравнив данные, полученные в августе 2010 года, с данными за февраль 2008.

Цели исследования

• Определить качественный уровень грамотности вебмастеров сайтов, размещенных в каталоге Яндекса.
• Определить, насколько профессионально используется файл управления индексацией сайта robots.txt.

Методы и средства

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать главный домен, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. ([1]).

Исследовались следующие параметры файла robots.txt:

• статус коды ответов серверов,
• mime типы для файлов robots.txt,
• наличие и правильность указания кодировки в заголовке ответа сервера,
• проверка корректности синтаксиса и орфографии при написании директив,
• использование специализированных команд.

Статус коды

HTTP коды статуса (возвращаемые сервером заголовки) говорят веб-браузерам и роботам поисковых систем, какого рода ответ они получают при загрузке страницы.

Для оценки того, насколько активно веб-мастера используют возможность управлением индексацией своего сайта, мы собрали статус коды файлов robots.txt для сайтов, описанных в каталоге поисковой системы Яндекс.

Для данных 2010 г. распределение по кодам ответа сервера выглядит следующим образом:

Таблица 1 – Распределение статус кодов, данные 2010 г.

Сравним с данными, полученными в 2008 г.:

Число сайтов, у которых при обращении к файлу robots.txt возвращается верный заголовок ответа сервера, значительно выросло и составляет чуть менее 58%, тогда как в 2008 году был только 41%. Код ответа сервера 200 говорит о том, что файл существует и может быть загружен.

MIME типы

MIME типы (типы содержания) возвращаются веб-серверами в HTTP заголовках, чтобы сообщить клиентам, какой документ передается. Они состоят из типов (text, image и так далее), подтипов (html или jpeg) и некоторых необязательных параметров, таких, как кодировка документа. Единственный MIME тип, который должен возвращать файл robots.txt, – это текст (text/plain).

Из числа исследуемых сайтов, после сбора статус кодов, осталось 51215 сайтов, ответивших заголовком 2xx (документ существует), у 48604 (94,9%) из которых MIME тип соответствует «text/plain». Соответственно, 2611 (5,1%) сайтов возвращают MIME тип, отличный от верного (по данным 2008 года, таких сайтов было 8,03%).

Исследуемые серверы ответили следующими различными значениями MIME типов:

Таблица 2 – Разнообразие кодов ответов сервера

Кодировка

Ситуация с кодировкой за два с половиной года не изменилась. По-прежнему присутствует большое разнообразие в настройках кодировки сервера. Если в феврале 2008 года было всего 9 различных вариантов указания кодировки, то в 2010 году выбор стал богаче: 12 различных вариантов.

Таблица 3 – Разнообразие кодировок в ответах серверов.

Данная ситуация не является критичной, так как большинство индексирующих роботов поисковых систем определяют кодировку загруженного документа самостоятельно.

Комментарии

В robots.txt можно использовать только один вид комментариев. Комментарием считается строка после знака “#”. При этом среди исследованных файлов были найдены:

• HTML комментарии “< !- – >“(25 фалов);
• комментарии в стиле C++ “//”(20 файлов);
• комментарии ИСР Delphi “{}“ (56 файлов);

Стоит отметить, что в исследовании, которое проводилось в 2008 году, комментарии по типу ИСР Delphi не встречались.

Обычные синтаксические ошибки

Спецификация говорит о том, что записи должны разделяться пустыми строками, и большинство ошибок вращается вокруг этого.

1) Дополнительная пустая строка. На момент исследования доля таких сайтов – 0,6% (318 сайтов), в то время как в 2008 году таких сайтов было 1,6%.

2) Пропущен символ начала новой строки между User-Agent и правилами для индексации. Сайтов с подобной ошибкой – 0,4% (217), в 2008 году доля таких сайтов была 1,07%.

3) Строка с агентом после правила Disallow не разделена пустой строкой. В каталоге Яндекса 0,7% (380) таких сайтов. Два с половиной года назад: процент сайтов с такой ошибкой был 1,45%.

Задержка сканирования

За время, прошедшее с предыдущего исследования, индексирующий робот поисковой системы Яндекс официально стал поддерживать директиву crawl-delay. Эта мера значительно повлияла на количество сайтов, в robots.txt которых указана эта директива. По данным 2010 года, из 51215 сайтов на 3406 (6,7%) директива crawl-delay присутствует. В 2008 году таких сайтов было всего 2,3%.

Опечатки

Очень часто причиной того, что робот поисковой системы игнорирует инструкции в файле robots.txt, являются банальные опечатки. В указанном ниже списке встречается 19 различных написаний директивы Disallow:

При этом написание директивы user-agent вызывает значительно меньше сложностей. Найдено 11 различных вариантов:

Общая грамотность в написании этой директивы за 2 с половиной года снизилась. В 2008 году вариантов написания user-agent было всего 7.

Другие ошибки и курьёзы

Многие вебмастера, вероятно, слышали о том, что необходим файл robots.txt, но не совсем понимают, для чего он нужен. Поэтому появилось множество курьёзов.

Разработчики сайта alicecoopernet.narod.ru, возможно, верят в магическую силу наличия robots.txt на сайте. И, видимо, из-за отношения к этому файлу как к особенной магии, он содержит только следующие строки:

Некоторые вебмастера считают, что дизайн должен быть везде: не только на основном сайте, но и во вспомогательных файлах. Например, документ robots.txt на сайте benbarnes.flybb.ru содержит изображение роботов. Всё логично, не поспоришь:

У многих любителей фантастики слово «робот» в первую очередь ассоциируется с Айзеком Азимовым. Вебмастер, сайта last.fm, вероятно, относится к таким людям. В robots.txt он перечислил три закона роботехники:

Sitemap.xml

C момента проведения исследования 2008 года, формат sitemap.xml стал официально поддерживаться Яндексом.

Файл Sitemap — это файл, расположенный на сайте и содержащий дополнительную информацию о страницах, подлежащих индексированию. С помощью файла Sitemap можно сообщить индексирующим роботам поисковых систем, какие страницы сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно ([2]).

В связи с этим мы решили собрать статус коды ответов сервера также и для этого типа файлов. На август 2010 года файл sitemap.xml присутствует на 9247 сайтах, что составляет 9,7% от всей исследуемой выборки сайтов.

Выводы и заключение

1. С 2008 года значительно улучшилась ситуация с наличием файлов robots.txt. Процент сайтов с установленным robots.txt увеличился на 18% и составляет чуть менее 58%.

2. Улучшилась ситуация с указанием MIME-типов для файлов robots.txt. Количество файлов с неверным типом уменьшилось с 8,03% (в 2008 году) до 5,1% в 2010 году.

3. За 2 года ситуация с указанием кодировки отдаваемого документа заметно не изменилась. До настоящего момента администраторы веб-серверов так и не определились, как прописывать кодировку UTF-8.

4. Рост количества файлов с неверными комментариями в robots.txt соответствует общей выборке, относительное количество таких файлов за два с половиной года не изменилось.

5. Уменьшилось количество файлов с ошибками в синтаксисе robots.txt, по основным измеряемым параметрам количество неверных конструкций снизилось до значений менее 1%.

6. Значительно выросло количество сайтов, где в robots.txt указана директива Crawl-Delay. На настоящий момент таких сайтов: 6,7%.

7. Файл sitemap.xml присутствует менее чем на 10% сайтов.

8. Исследование косвенно показало рост количества грамотных веб-мастеров в российском сегменте Интернет в период с 2008 по 2010 год.

Источник: www.searchengines.ru