Мар
У Yahoo! хороший аппетит
Давно не секрет, что поисковые боты прожорливы. И это не беда, а большая радость, когда они приходят индексировать ваш сайт. Но что делать, когда сайт не один?
Мне всегда нравилось смотреть за динамикой заходов поисковиков на новые сайты. Но на прошлой неделе огромный интерес у меня вызвала активность яхубота на ВСЕХ моих сайтах (онлайн магазины, порталы, каталоги, форумы, блоги и т.д.) – он просто озверел. Яхубот легко и непринужденно положил один из моих серверов многочисленными обращениями (и это при том, что сервак этот выдерживал посещаемость в миллионы юзеров в сутки).
Многие наверняка в курсе, что не так давно Яху побанил множество сайтов (и не только всякую грязь, но и нормальные сайты). А на прошлой неделе опомнился и начал все индексировать заново – мои сайты (часть из которых попала под бан) подверглись агрессивной индексации.
Пока самый действенный способ поддерживать сервер в адекватном состоянии – это блокировка в конфигах сервера ахубота (по юзер агенту). Уже сделали кеш для всех сайтов, оптимизировали все, что только могли, поставили кеш для пхп и прочие заморочки – сервак уже почти держит натиск яхубота (раньше умирал через 5 минут после активации яхубота в конфигах, а сейчас по полчаса держится). Продолжаем оптимизировать скрипты и придумывать дополнительные хитрости.
Яхубот – всегда гость желанный, он нам очень нужен, но бывают моменты, когда мы просто не можем его себе позволить. Запрашивает яхубот в сутки 3-5 лямов страниц – хз, зачем ему столько, но видимо очень хочется. Другие боты на порядок скромнее.
Забавных моментов еще много. Например, то, что до этого сервак держался не один год (и при текущем количестве сайтов все было в порядке) – индексировалось все, работало довольно шустро. Кстати, все это происходит при вполне адекватном отношении к сайтам со стороны прочих поисковиков – они индексят без «авралов».
Вот такие пироги. Желаю всем попасть в индекс Яху и не лопнуть от переизбытка чуйств
В продолжение: Как я боролся с Yahoo! Slurp
Источник: blog.dimok.ru