Поисковые системы не анализируют смысл, мы же не ищем не ключевые слова, мы ищем смысл, информацию. Сделать поисковую систему, которая понимала бы смысл невозможно – все предложения многозначны. Попытки создания таких систем были, в лучшем случае среднеудачные, в худшем – провальные.

Что такое смысл? Смысл для информации – это положение информации на определенной карте. Это возможность отнести информацию к карте и чем более точно мы сможем соотнести, тем лучше будет поиск.

Что такое карта для поиска? Эта карта – Википедия, уникальное огромное собрание информации, которая прекрасно структурирована. Это «совокупность всех заблуждений мира». Неидеальность Википедии – это именно та неидеальность общества, которая нужна поисковой системе. Если пользоваться ей как картой смысла, то мы будем в одной фазе с обществом.

Википедия отображает термины по тематикам. На сегодня есть тестовая среда, которая умеет делать следующее: на базе Википедии она делает дерево категорий. Эта структура построена для русского языка и для русского языка в ней 32,000 позиций.

На свете нет ни одного текста, который был бы в одной категории. Любой документ содержит 2-3 темы. Система находит все возможные темы и выдает индекс, насколько хорошо представлена тема. Также система умеет общаться с пользователем.

Если вы неправильно задали запрос к любой поисковой системе, вам выдают документы, в которых есть никому не нужное слово. Массив информации, с которой никак нельзя работать. Решением является постепенное изменение запроса. Наша поисковая система выполняет простую вещь – она может отсеять результаты по категориям ( например, «про химию» и «про Францию» при запросе «франций»). Если человек не в состоянии владеть темой, можно получить поисковую среду, которая сама будет вести его по смыслу, давая подсказки (как пример ключ – музыкальный, информационный, от замка). Этот инструмент, который работает с уже найденным.

Можно также работать до поиска – предложить тематики поиска не по слову, а по смыслу. Система находит варианты смыслов, предлагая варианты запросов, найденные в одной категории и близкие по значению. Выбираются тематики, которые одновременно попадают под нужную категорию. До нас люди создавали Тезаурус, систему синонимов. В это системе все города России были синонимом слова «Россия», что однозначно неверно. При таком подходе сильно увеличивается объем выдачи, но качество нет. Поэтому, не надо ее расширять, а надо уточнять.

Система как продукт началась с задачи сделать таргетированную рекламу. Персонализированную рекламу, которая знает:
-интересы пользователей по отношению к товарам
-не использует баз данных соц сетей

Во-первых, заполнение профилей в социальных сетях не консистентно, кто-то укажет, что он мужчина, а кто-то, что не курит; во вторых, хранение информации о пользователях, напрямую не связанной с бизнесом, незаконно. Система должна была знать, о чем думают пользователи, что им продать, без персональной информации.

Есть: след человека url , сайты, из них нужно выудить интересы человека. Нужно было проанализировать страницу и узнать ее смысл. Если человек с утра до вечера читает про удочки, а сегодня зашел на памперсы, значит, что-то в его жизни произошло. Интегрирование этой информации дает долговременные интересы человека, дифференцирование – локальные всплески интереса. Если интерес долговременен – товары по нему можно будет показывать вечно, на протяжение практически всей жизни. Сейчас ПС хорошо справляются только с краткосрочными интересами, которые быстро исчерпываются.

Важно при этом: его анонимность, потому что завязанность рекламы на соцдем странна – можно собрать девушек-студенток, у них будут какие-то общие интересы, но их будет крайне не много.

Система на сейчас: база 48 млн, пресса всей России, промышленный уровень системы. Если эту систему присоединить к системе контекстной рекламы, это будет совершенно новый продукт.

Вопрос из зала: слово порно будет самым популярным. Это и так общеизвестно. Зачем тогда система?

Ответ: люди интересуются порно, но покупают магнитофоны.Это просто шум, который нужно фильтровать. Мы продиагностировали посты ЖЖ. Убрав половину спама, мы смогли проанализировать смысл оставшегося контента.

Кирилл Готовцев: по сленгу мы смогли расчленить молодежную аудиторию и выделить отдельные группы , мы узнали, что есть скинхеды, готы, что скинхедов четыре вида, и у каждого есть свои интересы, на основе которых им что-то можно продавать.

 

Источникwww.searchengines.ru

Поделиться в соц. сетях

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Одноклассники
Опубликовать в Яндекс
Опубликовать в Мой Мир

Рекомендуем ещё