Янв
К вопросу об алгоритмах поисковых систем
В одной из статей мы обещали рассмотреть особенности алгоритмов работы ведущих поисковых систем. Итак, кратко остановимся на наиболее известных и популярных на сегодняшний день поисковиках.
1.AOL
AOL заявляет о себе как о первой поисковой системе, которая использует технологию «кластеров».Результаты поиска автоматически группируются в соответствии с релевантными темами. Однако на сегодняшний день около 80% поиска, осуществляемого в AOL, основывается на базе данных, предоставляемых Google. Из десяти первых результатов по запросу, например, «домашние животные» в AOL и Google, различий не наблюдается, а на запрос «питание домашних животных» зафиксировано всего одно расхождение. Похожие результаты достигались и по другим случайно выбранным запросам. Поисковые запросы в AOL составляют приблизительно 16% от общего поиска в Интернете.
2.Google
Поисковик Google использует алгоритм, известный как алгоритм Hilltop или «Austin update». У Hilltop особое отношение с «авторитетными сайтами». Существуют некоторые сайты и страницы, которые Google оценивает как особенно важные для определенной тематики.Для достижения качественных результатов поиска, особенно для предотвращения автоматической генерации поисковыми системами некоторых веб-страниц, была разработана концепция ссылочной популярности. Ссылочная популярность имеет существенное значение для Page Rank Google.Page Rank расценивается как семейство алгоритмов, которое определяет вес и значимость гиперссылочных документов, проиндексированных поисковой системой. Page Rank учитывает более 100 факторов. Какая значимость присуждена каждому фактору доподлинно неизвестно, но абсолютно точно, что обратные ссылки представляют один из наиболее существенных факторов при определении релевантности. Перечислим некоторые другие факторы: плотность ключевых слов, дата регистрации доменного имени, возраст сайта, текстовая навигация, отсутствие спама и др. Уверенно нельзя сказать, входят ли названные факторы в сам алгоритм или только используются поисковиком Google в процессе фильтрации.Google, пожалуй, самая загадочная из всех ведущих и известных поисковых систем, хотя является самой популярной. Статистика свидетельствует, что более 35% поиска, осуществляемого в Интернете, приходится на Google.
3. Ask Jeeves
Ask Jeeves практически полностью создан вручную. Результаты представляются в виде вопросов, на которые существуют ответы или ссылки. Введите запрос на английском языке в текстовом окне, затем нажмите кнопку «Ask», Jeeves сделает все остальное.
Отметим, что поисковая система в настоящий момент меняет свой брэнд, и ее талисман (дворецкий) скоро станет всего лишь историей.
Поисковая система Ask Jeeves базируется на поисковой технологии Teoma. По некоторым наблюдениям оптимизаторов, Teoma задерживает сайты в своем индексе дольше других поисковых систем. Если вы используете редиректы, не важно, временные или постоянные, есть реальный шанс, что Ваши старые URL останутся в индексе на достаточно длительный срок. Переиндексация сайтов поисковыми системами обычно происходила приблизительно раз в 3-6 месяцев, но уровень переиндексации никогда не был точно зафиксирован. Платным каталогам всегда уделяется больше внимания, чем любому сайту, содержащемуся в индексе. Можно даже не мечтать, что Ваш сайт попадет в индекс Teoma или Ask Jeeves до тех пор, пока Вы не оплатите платные каталоги. Впрочем, можно просто ждать, когда робот обойдет Ваш сайт, но это займет длительное время.
Ask Jeeves – удобная платформа для размещения рекламы PPC. С помощью программы Google AdWords Ask Jeeves предоставляет платные каталоги.
В Ask Jeeves наблюдается значительное число обманных кликов. Основная причина – способ выдачи результатов поиска. В Google, например, платные каталоги находятся на значительном расстоянии от бесплатных, либо они «высвечены» синим цветом в начале страницы или внизу справа. В Ask Jeeves бесплатные и платные каталоги различить достаточно проблематично.
4. Yahoo
Yahoo считается одной из ведущих поисковых систем. Поисковые запросы в Yahoo составляют около 28% от всего поискового трафика. Портал Yahoo продолжает предлагать своим пользователям неограниченные возможности благодаря постоянно совершенствующемуся алгоритму.
Yahoo неоднократно и кардинально меняла принципы своей работы. Задача Yahoo – предоставление релевантных результатов своим пользователям в тех областях, где компьютерные алгоритмы «не оправдывают ожиданий» (речь идет о персонализированных результатах и мнениях).
Компания Yahoo ввела «социальный поиск», которому дали название My Web 2.0. Новый вид поисковой системы – социальная поисковая система, которая дополняет Интернет-поиск, позволяя пользователям получать ответы на интересующие вопросы не только в Интернет-ресурсах, но и непосредственно от знакомых и друзей.Технология, которой руководствуется «социальный поиск», называется My Rank.
My Rank обладает всеми преимуществами алгоритмического поиска и совмещает в себе многие достоинства, руководствуясь всего одной идеей: субъективное мнение по тем или иным вопросам. Технология My Rank позволяет получать ответы на интересующие вопросы не только от поисковиков, но и от определённых людей, оценивать эти мнения с целью нахождения оптимальных ответов, которые, по Вашему мнению, являются наиболее релевантными. Тем более, речь идет о людях, которые Вам знакомы, которые разделяют Ваши интересы, работают, возможно, в Вашей структуре и потенциально искали ответы на те же вопросы, что и Вы. Совмещая возможности алгоритмического поиска с возможностью «войти в знакомое сообщество», технология My Rank способствует нахождению более релевантных ответов.
Все это становится реальностью благодаря предоставляемой возможности избирать, сохранять и делиться информацией с другими людьми, точно так же, как и получать информацию, с которой готовы поделиться другие люди.Социальный поиск привнес нечто новое в Интернет. Теперь поисковые результаты находятся в некоторой зависимости от мнения определенных людей.
Концептуальный поиск от Yahoo
На протяжении длительного периода времени Yahoo стремится стать уникальной концептуальной поисковой системой. Какая теория лежит за понятием «концептуальная модель поисковой системы»?
Компания Yahoo придерживается следующего мнения: все, что люди выражают сложной терминологией, можно заключить в простые понятия. Например, «Гавайи» и «Нью-Йорк» – абсолютно разные запросы, как по длине, так и по количеству слов, но в человеческом восприятии они совмещают в себе одно понятие. И, наоборот, человек воспринимает запрос «правоохранительные органы Нью-Йорка» как запрос, содержащий 2 разных понятия: «Нью-Йорк» и «правоохранительные органы».
Люди рассуждают о логической связи между понятиями. Например, понятия «правоохранительные органы» и «полиция» можно отнести к смежным областям. Пользователь, который вводит в поисковую строку одно из понятий, может заинтересоваться сайтами, которые относятся к смежному понятию, даже, если оно не содержит слов запроса.
До сих пор остается непонятным, какую технологию использует Yahoo, совершенствуя концептуальный поиск. Есть основания подозревать, что Yahoo предложит концептуальный поиск в виде отдельной поисковой системы, с использованием «социального поиска».
Тем не менее, стремление предложить пользователям точную информацию в соответствии с их индивидуальными потребностями, выглядит, по меньшей мере, утопично.
Поговорим о стратегиях оптимизации и поведении поисковой системы при обхождении сайта поисковыми роботами.
Yahoo уделяет первостепенное значение плотности ключевых слов. По некоторым оценкам, плотность ключевых слов в <title> составляет около 10% от требований алгоритма рассматриваемой поисковой системы. На первый взгляд, кажется, что алгоритм Yahoo представляет собой полную противоположность приоритетам, которым уделяет внимание Google. Но на самом деле это не так.
Некоторые ассоциируют нынешний алгоритм Yahoo с алгоритмом Google двухлетней давности. С момента появления алгоритма Inktomi, поисковая система Yahoo стала уделять большее внимание обратным ссылкам, и все же это не является основополагающим компонентом работы алгоритма Yahoo, в отличие от алгоритма Google.
Оптимизируя под Yahoo, важно помнить, что алгоритм этой поисковой системы заинтересован в таких факторах, как контент, использование ключевых слов на странице, плотность ключевых слов на странице, жирный текст. Учитываются такие внешние факторы, как ссылочный текст, входящие ссылки и т.д. Yahoo предпочитает видеть ключевые слова в самих URL сайта или страниц, но отдает предпочтение жирному тексту, тексту, заключенному в <h1>.
5. AltaVista
Одна из самых старых поисковых систем AltaVista подвергалась многочисленным изменениям за время своего существования. Сейчас поисковые технологии AltaVista работают при поддержке Yahoo!.
Название поисковой системы переводиться как «вид сверху». Она была одной из первых крупных поисковых систем в Сети. К сожалению, в конце 90-х, на которые пришелся пик ее популярности, AltaVista потеряла значительную долю рынка, уступив ее MSN и Google. Сейчас AltaVista – одна из поисковых систем низшего порядка, работающая на основе результатов поискового индексирования от Yahoo!.
Начало поисковой деятельности AltaVista (в 1995г.) совпало с изобретением способа сохранения любой страницы в Интернете, в быстром и доступном для поиска индексе. Спустя 6 месяцев со дня запуска проекта, AltaVista предстала перед пользователями с почти 16 млн. документов в индексе. В первый день своей работы поисковую систему посетило более 300 000 пользователей, это было мгновенным успехом. К концу 1996г. поисковик без труда обрабатывал 19 млн. запросов в день. AltaVista стала фаворитом и пользователей-новичков, и профессионалов. Однако с появлением Google, AltaVista начала терять свою популярность.
Управленческий состав поисковика претерпевал многочисленные изменения: сначала Alta Vista была собственностью компании Compaq, а с февраля 2003 Alta Vista стала приобретением в $140 млн. компании Overture. Следовательно, когда Yahoo! стала владельцем Overture (в 2003), AltaVista стала частью заключенной сделки. Поэтому сейчас AltaVista – это Yahoo!, с одним и тем же поисковым индексом и пользовательским интерфейсом, а, оптимизируя под AltaVista, в первую очередь, Вы оптимизируете под Yahoo!.
Надеемся, что картина о поиске в Yahoo! прояснилась, также как и о бета-версии My Web 2.0 и технологии скрытой семантической индексации, исследования которой в настоящее время проводит Yahoo!. Произошедшие кардинальные изменения Yahoo! поражают воображение и лишают всяких оснований думать о возможном прекращении функционирования. Будем следить за развитием событий, пытаясь оставаться в курсе всех апдейтов и нововведений.
6. MSN
Последнее крупное изменение, произошедшее в конце июня прошлого года в поисковой сети MSN, представляет собой обновление индекса. Теперь в алгоритме поиска используется «нейронная сеть» для ранжирования результатов поиска. Среди пользователей эта новая технология ранжирования получила название “RankNet”. Данный алгоритм представляет большое значение для многих поисковых оптимизаторов.
MSN RankNet: что это?
В сущности, RankNet – это «самообучающаяся машина», которая принимает во внимание исследования человека в области поиска для предоставления более релевантных результатов. Все начинается с предвычислений по введенному в нейронную сеть запросу. По словам представителя MSN, алгоритм использует большое количество данных, которые распространяются в Сети.
Предвычисления выполняются в стиле «обучение с учителем», что представляет собой «…технологию самообучающейся машины для создания функции из данных режима обучения. Эти данные состоят из входных переменных (векторов) и требуемых выходных переменных. Выходные переменные функции могут быть значением непрерывной (регрессии), могут определить классовую характеристику входных переменных (классификация). Задачей контролируемого «ученика» является определение значения функции для любой подходящей входной переменной после просмотра небольшой группы примерных данных режима обучения (пары входных переменных и требуемых выходных переменных). Чтобы добиться этого, «ученик» должен логично обобщить всё, от представленных данных до возможных».
MSN использует 569 универсальных технологий для определения релевантности документа, как части входных переменных Сети во время контролируемого обучения или тренинга. Говоря, что релевантность документа запросу определяют 569 разных факторов, подразумевается следующее: релевантность документа определяется на основании его специфических особенностей.
Основными принципами ранжирования сайтов в MSN являются ссылочный текст и контент. Вследствие этого, поисковый алгоритм MSN уделяет особое внимание высокой плотности ключевых слов. С недавнего времени поисковый робот MSN стал придавать высокую важность присутствию robots.txt файлов (читайте мастер-класс «Что такое robots.txt? Зачем и как его использовать»), оставляя сайты, не имеющие подобных файлов, не проиндексированными. Является ли это следствием использования новой нейронной сети, уверенности нет, возможно, это обычный фильтр.
Важным остается присутствие ключевых слов в адресе сайта (URL), 85% таких сайтов могут занять топ-позиции в ранжировании. Также MSNBot распознает такие тэги как, тэги заголовков, alt-тэги изображений, элементы заголовка в тексте ссылок. MSN не видит разницы между тэгами , <b> и <strong>. Их можно назвать равноценными.
На MSN приходится почти 15% всех поисковых запросов в Интернете. В настоящее время поисковая система не индексирует флэш-сайты, пока это находится в планах на ближайшую перспективу. Работа MSN с 302 временными редиректами пока тоже не налажена. Когда страницы переадресовываются, поисковая система индексирует страницу, которую пользователь посетил последней, пропуская временную.
Статические страницы представляют большее значение для MSN, по сравнению с динамическими. Достаточно трудно подвергнуть сомнению тот или иной сайт, использующий такие методы, как «чистка» сайта, ссылки на сайт со спам-страниц.
Не ясным продолжает оставаться влияние фактора возраста сайта на алгоритм RankNet.
Фильтры
Многим хотелось бы верить в то, что у MSN нет дубликатов контент-фильтров, а сайты с дубликатами подвергаются наказанию. Это не так. Следует отметить, что MSN не отфильтровывает дубликаты, несмотря на то, что у поисковой системы есть технологии, позволяющие определять происхождение контента и его источник.
Как Google и Yahoo!, MSN ведет постоянную работу по расширению своих горизонтов. И речь идет не только о поиске, но и о других сервисах компании, предложенных наряду с вышеуказанным.
Поиск AOL
С начала прошлого года MSN вела переговоры с AOL и Time Warner о возможном приобретении технологии однократной связи с поисковым гигантом по телефонной линии через модем. Только обсуждение возможного партнерства так ничем и не закончилось, а ведь подобное объединение с AOL, несомненно, могло потрясти весь поисковый маркетинг .
Кластеринг поисковых результатов (группировка результатов поиска)
О том, что происходит в мире MSN, в частности, как развивается кластеринг поисковых результатов, можно узнать на сайте MSN-песочницы sandbox.msn.com. MSRA SRC представляет собой сервис для поисковой сети с техникой группировки результатов поиска (SCR), которая была представлена Сетевым Поиском и Группой разработчиков MSR (Азия). Данный сервис группирует результаты поиска и предлагает релевантное название для каждой группы. SCR заменил стандартную репрезентацию результатов поиска на нелинейную, облегчающую пользователю просмотр.
Эксклюзивные черты MSN
Эксклюзивные черты предполагают неповторимые свойства поисковой системы, отличающие ее от других. Ниже представлен список уникальных свойств, характеризующих поисковую систему MSN:
Мгновенные ответы – MSN Search способен мгновенно демонстрировать ответы Encarta и музыкального сервиса, т.о. время навигации пользователя в поиске информации минимально.
Функции и инструменты – самый современный индекс, масштабы которого составляют достойную конкуренцию; инструменты – Search Builder и Near Me, персонализирующие поисковый опыт пользователя.
Разнообразные точки доступа – MSN представляет пользователю легкий поиск, не зависящий от точки доступа, например, MSN.com перестроенный и оптимизированный под сетевой поиск или MSN Toolbar Suite, снабженный Windows Desktop Search.
MSN Keywords – недавно MSN запустил систему MSN Keywords. Подобно Google’s AdSense, MSN Keywords представляет программу аукционного типа, где рекламодатели назначают свою цену на определенные ключевые слова в adCenter. На данный момент это экспериментальная версия, уже тестирующаяся во Франции, Гонконге и Сингапуре. От популярности программы будет зависеть ее появление на рынках США и Объединенного Королевства в начале этого года.
Обобщая все вышесказанное, можно сказать следующее: MSN Search обладает множеством разнообразных функций и доступных сервисов, во многом облегчающих работу пользователя во время поиска информации. Что касается технической стороны, оптимизация под эту поисковую систему не представляет трудностей.
Вопросы, касающиеся алгоритмов работы поисковых систем, являются наиболее острыми и актуальными в сфере Интернет-маркетинга. К сожалению, проникнуть во все секреты пока не удается, однако специалисты в данной сфере не оставляют надежды узнать в скором будущем, что скрывается за простым словом алгоритм.
Специфика работы поисковых систем, кратко рассмотренных в данной статье, возможно, натолкнет на размышления об особенностях, свойственных отечественным поисковым системам.
Источник: seonews.ru