Мар
Евгений Трофименко на NetPromoter ’09: Использование особенностей языка запросов поиска Яндекса для исследований
Евгений Трофименко, начальник отдела исследований и аналитики корпорации РБС,
тема доклада: Использование особенностей языка запросов поиска Яндекса для исследований
Доклад Евгения состоял из трех частей:
- особенности работы операторов исключения, особенности отработки контекстных ограничений
- результаты мониторинга “прямого эфира” Яндекса
- возможности использования поисковых операторов для мониторинга изменений алгоритма Яндекса
Оператор минут не применяется к текстам ссылок.
оператор ~~ вычищает нпс-результаты из выдачи
можно узнать, как Яндекс расширяет запрос пользователя,
особенности контекстных ограничений
Оператор присутствие + (плюс) – слово обязано находиться
Операторы исключения:
~~ (тильда) исключение в пределах документа; ( ~ предложения)
- недокументированный: был исключением в контексте
Возможный контекст поиска?
документ (текст), предложение (текст)
ссылки (анкор-файл)
расстояние в несколько слов или предложений, явно указанных операторами /(-N +N) или &&/(-N +N)
Поиск точно знает, что есть и чего нет в тексте страницы
поиск не уверен, что знает абсолютно все тексты ссылок
поиск работает и по текстам, и по ссылкам
поэтому при исключении слов у поиска два варианта:
исключать то, что есть в тексте страницы
и искать по тексту ссылок
“не знать” о его существовании – оператор “минус”- оставляем нпс
делать вид, что ссылок не существует “~~” – исключаем нпс
Запрос : что найдем?
слово – документы, содержащие слово в текстах или во входящих ссылках
-слово – исключаются документы, которые содержат слово в тексте
В итоге остаются – найденные по ссылкам документы (сниппет может быть из Я.Каталога)
Для чего это полезно: как эксперимент, для поиска ссылок с конкретными словами
Добавляя в любой запрос исключение ~абракадабры, удаляем нпс
Полезно, для оценки доли найденных по ссылке в выдаче.
[слово-слово]: удаляет найденные по ссылкам результаты, все – по данному запросу
Расширение пользовательских запросов
Яндекс всегда мог переформулировать запросы (колдунщик), но редко это делал. Сейчас это происходит в потоке.
гостиницы в Москве – Московские гостиницы
mazda – мазда
МГУ – московский государственный университет
при исключении слова из запроса – в выдаче остаются и подсвечиваются переформулировки (+ найденное в урл)
слова запроса – слово – оставляет смесь переформулировок и нпс
слово запроса ~~!! (слово) – РАБОТАЕТ
Правда, работает индивидуально: разный результат гостиницы в москве —> гостиницы москвы (переколдовывает)
гостицы Москвы —> гостиницы в Москве (НЕ РАБОТАЕТ)
Кондунщик – расстановка неявных для пользователя ограничений на расстояние между словами, известен с 2004 года
При поиске новый год – (от 1 +3 расстояние год новый до “новый [*][*] год”
По статистике запросов РБС – перебираем и смотрим как узнать реальные ограничения на расстояние между словами.
Вывод: перебор вариантов не дает результатов. Выдача по непереколдованному запросу – отличается.
Контекстные ограничения в Яндексе.
В релизе Магадан сказано, что смягчили фильтрацию отбора документов, которая дает возможность найти слова запроса, находящиеся далеко друг от друга.
Берем +новый +год, оба должны находиться.
~~ (+новый&+год), исключаем результаты поиска, в которых слова находятся “слишком близко”.
Смотрим, как меняется число найденных документов и надеемся, что постепенно при увеличении расстояния оно станет нулевым тогда, когда расстояние совпадает с расстоянием в заколдованном запросе…
Число результатов “далее, чем” – находятся документы даже с расстоянием до 1000 предложений!
Точное количество найденных документов смотрим через Яндекс.XML
Из документации Яндекса
phrase – число документов с буквальным соответствием запросу
strict – число документов с вхождением всех слов запроса в ИСКОМЫЙ КОНТЕКСТ
all – общее число
при strict – есть ноль
Вывод: Яндекс внутри своих алгоритмов знает, что контекстное ограничение существует и он может их показать.
Сейчас в пределах 7 предложений, но не везде.
Вопрос в том, что это за релевантность strict, зачем она нужна?
пример:
нпс – результат в котором очень большое расстояние между словами
отдельная ссылка с одним из двух слов
если смотреть xml, то видно только 1 ссылка с приоритетом all
Вывод : есть контекст all – в который запихивают всякую чепуху, и его выдают в выдачу. Такой результат можно найти в разных запросах.
Статистика использования операторов в поиске Яндекса:
Пробуем регулярно пробивать прямой эфир и искать неправильные символы – смотрим, примерно 300 результатов.
50% – это ошибки, далее – поиск дублей, операторы других поисковых сиситем и исследования (великих людей).
В будущем может быть по-другому.
ошибки – * перед доменом
\ перед кавычкой
+ фраза в кавычках
- 15%
site:
url:
Не всегда понятно, что хотели люди, но посмотреть очень интересно
Например, часть запросов говорит о:
поиск главного домена + ты последний
сбор форумов
сбор баз переформулировок
мониторинг
мониторинг телефонов – ограничение по расстоянию
Самое интересное:
отсутствие в прямом эфире результатов пробивки проиндексированности
url=”domain/path”
при этом операторы domain rhost присутствуют
Вопрос: почему результаты проверки из сапы не видны?
Ответ: возможно, из-за того, чтобы задавить и не искажать статистику Директа. Но это в лучшем случае, а в худшем…
Анализ и мониторинг алгоритма
Существуют вечные основные запросы современности?
Влияет ли тиц на выдачу?
Почему Википедия рулит всех?
мало пассажей в результате – к чему
релевантность – страницы или сайта
и так далее
Пробуем анализировать:
Составим группы запросов, разбитые по числу слов в запросе и посмотрим, как именно изменяются средние по больнице параметры во времени.
То есть, мы понимаем, что тиц на выдачу не влияют – но вдруг, он как то влияет на самом деле – а мы не замечаем?
Как отличить апдейт от релиза, если мы анализируем по базе документов?
Как взвешивать параметры?
- по принципу видимости
- больше место – ниже вес
- сумма видимости по топ 50 равна 1
- сумма весов 1-10 вдвое выше 11-20
WT (pos) =0.074*2^(-pos/10)
03 марта Яндекс почистил выдачу и удалил большое число дублей
Результат – сократилось число индексации страниц старых сайтов
Смотрим дальше: взвешенный тиц в районе 3 числа – сначала резко подскочил, а потом упал, причем значительно.
А по операторам domain и rhost – взвешенный тиц не менялся.
Вывод: взвешенные параметры – очень хороший инструмент для анализа, ну и тиц на выдачу не влияет, но как-то связан.
Вопрос – какая польза РБС от таких исследований?
Ответ – исключения в принципе полезны, но пока все это не нужно; если что, мы можем понимать, как и что изменилось в выдаче, находить новые операторы, понимать, как изменился алгоритм.
Источник: www.searchengines.ru