Июн
Создаем файл Robots.txt и карту сайта в XML. Марафон, день 7.
Продолжаю марафон, в ходе которого я рассказываю, как создать хороший сайт для заработка на продаже вечных ссылок и контексте. После прохождения 6 статей марафона, сайт почти готов. Теперь нужно его немного оптимизировать для поисковых систем.
Во-первых, рекомендую почитать рекомендации Яндекса по созданию сайта. Нужно было раньше дать на них ссылки, но и сейчас «самое время». Так вот, в этом руководстве для правильного индексирования сайта, веб-мастерам рекомендуется использовать файл robots.txt и создать карту сайта в формате XML. Начнем с карты сайта.
Sitemaps XML
Из Википедии:
Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации
Чтобы создать карту сайта XML в WordPress нужно скачать плагин Google XML Sitemaps и установить его. Про установку читайте тут.
Чтобы сделать sitemap.xml в DLE нужно зайти в админку и в списке всех разделов найти пункт «Карта сайта для Google и Yandex. Данный модуль предназначен для создания карт сайта для поисковых систем Google и Yandex.» Дальше разберетесь.
Если вы используете другой движок, ищите информацию по созданию карты сайта в XML в поисковиках.
Файл Robots.txt
О том, что такое robots.txt и для чего он нужен, читайте здесь. Разобравшись с этой статьей, вы поймете как сделать правильный robots.txt и что в нем писать.
Говоря простым языком, файл Robots.txt нужен для того, чтобы запретить индексацию ненужных страниц нашего сайта. Под ненужными страницами понимаются страницы не содержащие полезной информации и делающие сайт менее качественным в глазах поисковой системы. Например страницы RSS фида, страницы поиска, регистрации, профили пользователей, страницы, дублирующие информацию и т.д.
Я приведу свои примеры файла robots txt для wordpress и для DLE и коротко их прокомментирую.
Robots.txt для wordpress
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Что у нас получается:
Allow: /wp-content/uploads/
Разрешаем индексировать папку wp-content/uploads/. Чтобы робот индексировал картинки и прочие файлы, которые мы загрузили.
Disallow: /cgi-bin
Запрещаем индексировать все, что лежит в папке cgi-bin
Disallow: /wp-login.php
Запрет индексации страницы wp-login.php. Вход в админку не несет никакой полезной информации и его нужно запретить к индексации.
Disallow: /wp-register.php
То же самое и со страницей регистрации – wp-register.php.
Disallow: /xmlrpc.php
Запрещаем индексацию файла xmlrpc.php. Какой-то файлик, который отвечает за вызов удаленных процедур в WP.
Disallow: /wp-admin/
Запрещаем индексировать админ панель WordPress.
Disallow: /wp-includes/
Даем указание не индексировать файлы, находящиеся в директории wp-includes
Disallow: /wp-content/
Запрещаем индексацию в директории wp-content. Внутри нее у нас лежат папки: с темами themes, плагинами – plugins, папка cache, если используются плагины для кеширования страниц и т.д. То есть, куча бесполезного, что не нужно индексировать. Единственное что представляет ценность это папка wp-content/uploads/, но мы ее уже разрешили индексировать в начале.
Disallow: /trackback/
Disallow: */trackback/
Что-то связанное с трекбеками. Подглядел где-то и включил в свой файл robots.txt
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Запрещаем индексацию всего, что связано с фидами. Тоже где-то подглядел, особо не разбирался.
Disallow: /page/
Запрет индексации страниц с постами. (Страница 1 из 12345678»…В конец ») В принципе страницы содержат полезную информацию, но индексировать их не нужно. Потому что страницы не оптимизируются по каким-либо запросами содержат дублированный контент.
Disallow: /tag/
Также будет правильным запретить тэги (метки). Яндекс не очень любит их из-за дублированного контента. Но если грамотно распределять посты по меткам и в анонсах статей писать уникальные описания, и к каждой статье не добавлять кучу меток, а одну-две, то можно и разрешить индексировать тэги. Лично я на своем новом сайте запрещаю.
Disallow: /?s=
Не индексируем страницы результатов поиска. Вот это просто обязательно.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем поисковому роботу путь к карте сайта в формате xml.
Host: vash-site.ru
Обозначаем что сайт vash-site.ru является главным зеркалом.
Robots.txt для DLE
Правильный robots.txt для dle также как и для Worrdpress должен запретить индексацию ненужных страниц. В зависимости от типа выбранного ЧПУ в настройках DLE файл роботс.тхт будет различным. Вот что я пишу в общем случае в файле robots.txt для dle:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=search
Disallow: /index.php?do=pm
Disallow: /engine/
Disallow: /index.php?do=register
Disallow: /index.php?do=addnews
Disallow: /autobackup.php
Disallow: /backup/
Disallow: /user/
Disallow: /language/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /index.php?do=stats
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Disallow: /*print
Disallow: /*page/
Disallow: /templates/
Disallow: /tags/Sitemap: http://vash-site.ru/sitemap.xml
Host: vash-site.ru
Теперь подробнее:
Disallow: /cgi-bin/
Папка cgi-bin не будет индексироваться.
Disallow: /admin.php
Закрываем от индексации админ панель DLE
Disallow: /index.php?do=lastcomments
Запрещаем индексить страницу с последними комментариями.
Disallow: /index.php?do=feedback
Запрет индексации страницы «Обратная связь».
Disallow: /index.php?do=lostpassword
Страница восстановления пароля тоже не будет индексироваться.
Disallow: /index.php?do=search
Запрещаем индексировать страницы с результатами поиска.
Disallow: /index.php?do=pm
Не индексируем персональные сообщения пользователей (ПМ)
Disallow: /engine/
Запрещаем индексировать каталог engine, в котором у нас хранится cache, modules и прочее.
Disallow: /index.php?do=register
Закрываем от поисковиков страницу регистрации новых юзеров.
Disallow: /index.php?do=addnews
И страницу добавления новостей.
Disallow: /autobackup.php
Disallow: /backup/
Прячем от индексации бекапы.
Disallow: /user/
Запрет на индексацию профилей пользователей.
Disallow: /language/
Запрещаем языковые фалы.
Disallow: /favorites/
Не индексируем то, что находится в избранном у пользователя.
Disallow: /statistics.html
Disallow: /index.php?do=stats
Запрет на индексацию страницы «Статистика».
Disallow: /index.php?subaction=newposts
Disallow: /newposts/
Не индексируем страницу «непрочитанных новостей» .
Disallow: /*print
Не индексируем «распечатанные страницы». Это будет правильным, не только потому что так мы избавляемся от дублированного контента, но еще и потому, что в поиске могут участвовать распечатанные страницы, а не основные страницы. Тогда пользователь не увидит рекламы, а просто текст новости – нам это не выгодно.
Disallow: /page/
Запрещаем индексировать страницы с постами (Вернуться назад << 1 2 3 4 5 6 7 8 9 10 … 26 >> Следующая страница) .
Disallow: /templates/
Запрет на индексацию каталога с шаблонами – templates.
Disallow: /tags/
Не индексируем тэги. Это не обязательно, но я бы закрывал тэги от индексации.
Sitemap: http://vash-site.ru/sitemap.xml
Указываем путь к файлу с картой сайта в формате XML.
Host: vash-site.ru
Обозначаем что vash-site.ru является главным зеркалом.
Надеюсь проблем не возникнет и вы составите правильный Robots.txt. Или можете взять такой же как привел я.
Только обратите внимание: vash-site.ru обязательно замените на домен вашего сайта.
Источник: 9seo.ru