Подробности о будущем поиска: Проникновение в суть вещей

Автор: Том Вандербильт (Tom Vanderbilt) – журналист из США, блоггер. Пишет на такие темы, как технологии, наука, дизайн и культура для ряда крупных изданий. Является автором бестселлера «Traffic: Why We Drive the Way We Do (and What It Says About Us)».

Встречаясь с Амитом Сингхалом (Amit Singhal) главным вице-президентом и почетным сотрудником Google, человеком, который руководит ансамблем алгоритмов, обслуживающих ваши запросы, трудно было удержаться от жалобы на результаты поиска. Представьте, что вы заехали на север Массачусетса в поисках ресторана, который по вашим смутным воспоминаниям называется как-то вроде «Сахарная лачужка» (Sugar Shack). Введя это в строку поиска, первое, что вы видите – ссылку на развлекательный клуб для взрослых в Висконсине. С учетом того, что вы находитесь в тысяче милей от Висконсина, а в машине с вами едут жена и дети, возбуждающие воображение танцы – это совсем не то, что необходимо в данный момент.

Это должно быть понятно и Google. Конечно, добавив к довольно абстрактному поисковому запросу еще одно–два слова, уточнив его, вы найдете нужное место. А с учетом того, что мы еще помним те времена, когда поиск подобной информации требовал от нас знания точного адреса и наличия бумажных карт, становится как-то неудобно спрашивать Сингхала, сидящего в комнате для заседаний в Маунтин-Вью: «Почему Google не понимает меня?»

Найди самого себя

Он ответил снисходительно: «Поиск отнюдь не предназначен для решения подобных задач». Сингхал быстро поставил диагноз. «Вы в Массачусетсе. Возле Хэдли. Сахарная лачужка может означать и что-то совсем другое. Я не знаю, какой телефон вы использовали, но с учетом того, что лежит на столе, – он посмотрел на iPhone, – иногда нас могут отправить по ложному пути. Без контекста мы застреваем в том, что футуролог Пол Саффо (Paul Saffo) назвал «Булева темница поиска». (Джордж Буль – математик Викторианской эпохи, пионер двоичного подхода, сегодня рассматривается в качестве одного из основателей теории вычислительных систем). Складывая в одну упаковку комбинацию из нескольких слов, получаем различные варианты итогового значения, имеющие различную вероятность – например, секс и выпечка – мы должны выложить все варианты, которые могут быть востребованы пользователями».

Следует заметить, что, пользуясь таким поиском, вы не сможете завершить свое дело после первой же попытки, но хотелось бы, чтобы это было именно так. Всего за несколько лет мы прошли путь от поисковых систем, чье название сейчас звучит архаично и по-Викториански – «дифференциальные машины». Они берут корни в степенной академической дисциплине «извлечение информации». И пришли к просто «поиску», являющемуся чем-то гораздо большим, нежели приспособлением – он постепенно превращается в цифровой протез. Джон Бэттелл (John Battelle), автор книги «Поиск» (The Search), сказал: «Поиск теперь означает значительно больше, чем путь назначения в вебе и несколько слов, введенных в поле. Поиск – это режим, это способ взаимодействия с физическим и виртуальным мирами. Что такое Siri, если не поиск? Что такое программы Yelp или Foursquare, если не структурированные машины для поиска? Постепенно поиск встраивается во все, и проникает далеко за пределы веба, где он укоренен».

Поиск превращается в нечто очень интимное, в друга, указывающего нужное направление, а иногда, нарушающего ваше представление об окружающем мире. Бэттелл предполагает, что раньше мы пользовались поиском в вебе для того, чтобы найти то, что не знаем, отталкиваясь от того, что нам известно. Теперь же, как он говорит, мы занимаемся поиском, даже не зная того, что мы этого не знаем – в Рамсфельдианском состоянии «незнание о незнании» – мы направляемся в Google, вводим несколько букв на пробу, ждем обратной связи в форме автодополнения (теперь мы можем и не знать, как правильно пишется слово, это знают инженеры Google, а от нас требуется лишь узнавание), увидев точную формулировку своего вопроса, мы выбираем ее, надеясь, что в результате получим правильный ответ. Затем мы попадаем на цифровые отпечатки чьих то следов – инвестор и предприниматель Эстер Дайсон (Esther Dyson) называет их «мутными следами» – куда ушли люди, которые искали ответ на этот вопрос до нас. Вы слышали песню со словами «How do I know if he really loves me?» (Как мне узнать, любит ли он меня на самом деле) и хотите подробнее узнать, кто ее исполняет. Ваши пальцы начинают набирать слова на клавиатуре. Но до того, как вы закончите стучать по клавишам, автозавершение предварительно приоткроет вам двери в темные коридоры, одновременно являющиеся личными и общественными: «Как мне узнать, есть ли у меня вши?», «Как мне узнать, есть ли у меня грибковая инфекция?».

Если раньше мы использовали поисковые машины для поиска информации, то теперь мы можем прибегать к их использованию для поиска самих себя – то, что когда-то называлось транзакциями, теперь кажется продолжением нас самих. Рассмотрим, в качестве примера, попытку узнать точное время в Австралии. Прежде, чтобы сделать это, мы должны были пройти через следующие шаги:

1. Узнать точное время в том месте, где мы сейчас находимся;

2. Найти способ пересчета временных поясов, допустим, это программа из надежного источника;

3. Ввести свое местоположение в одном месте, а в другом – выбрать «Австралия».

Теперь же, имея под рукой Google, мы можем набрать или сказать – «Точное время в Австралии». Google поймет, что мы хотим от него, и без нашего дальнейшего участия проделает все вышеописанные действия. Он поймет. Сингхал говорит: «Как ученый, я должен сказать, что термин «понимать» плохо передает смысл концепции. Даже то, как вы или я понимаем что-либо – это не совсем понимание».

Никто лучше Сингхала не знает, насколько Google не понимает нас. «Насколько большой? – Очень неоднозначный вопрос. – Говорит он. – Имеется в виду длина или ширина? Произнося «покажи мне деньги», вы говорите совсем о другом, нежели, произнося «покажи мне картинку с георгинами». Или что вы имеете в виду, произнося какое-нибудь простое слово, скажем «kings» (короли). Во вчерашнем мире вы вводили эти буквы, а мы находили для вас лучшие страницы. Мы могли найти баскетбольную команду «Sacramento Kings», в названии которой использовано это слово, мы могли найти сайт, посвященный сериалу «Короли». Но мы не понимали ничего из этого». В этом смысле Google похож на того тайского чемпиона по игре в Скраббл, который удерживает в памяти огромный набор слов, но даже не подозревает о том, что они обозначают.

Однако, в поиске будущего, который Сингхал и его мастера неопределенности, создают в Маунтин-Вью, Google станет понимать, что вещи это не просто соответствие последовательностей знаков, но «вещи», представленные в интернете, имеют свою жизнь, свое место и свою историю в реальном мире. Отталкиваясь от того, кто вы такой, он сможет лучше понять, какого именно «короля» вы ищете. И он будет это делать посредством всевозможных способов: «он будет понимать вашу речь, ваши жесты или ловить направление вашего взгляда», – говорит Сингхал.

Сингхал является учеником Джерарда Солтона (Gerard Salton) ученого, занимавшегося теорией вычислительных машин и систем в Гарварде и Корнельском Университете, пионера цифрового поиска, он работал еще в те времена, когда передовые гипертекстовые системы, такие как InDecks или McBee, использовали карты с пробитыми отверстиями и сортировочные стержни. Будучи индийским мальчиком, Сингхал мечтал о гораздо большем, чем смотреть черно-белый телевизор. «Тогда в Индии производилось не много контента, – говорит он. – Поэтому, я бесконечное количество раз смотрел «Star Trek». Вот тогда у него и родилась мечта: «Ты подходишь к компьютеру и говоришь: «Какую атмосферу имеет планета, расположенная под нами?» Вот что я захотел создать».

От формы к сути

«Уже много лет люди пытаются организовать информацию, собираемую со всего мира, – рассказывает Джон Джианнандреа (John Giannandrea), бородатый и разговорчивый шотландец, за обедом в кампусе Google. – Я думаю, что в истории Александра Македонского был, вероятно, самый лучший учитель – Аристотель. Он знал почти все, что можно было знать в те времена».

Сегодня приобретение знаний стало менее важно, чем управление ими. «В наши дни, почти все у вас в руках, – говорит Джианнандреа. – Но как разобраться во всем этом?» Возьмем Граф Знаний (Knowledge Graph). В момент создания, в 2005 году, он был задуман как база данных, содержащая всю полезную информацию. Вначале им занимался стартап Metaweb, куда был приглашен Джианнандреа в качестве программиста, вместе с Дэнни Хиллисом (Danny Hillis) и Робертом Куком (Robert Cook). В 2010 году стартап был приобретен Google, и получил, по словам Джона, «мощное турбо-ускорение». «Одна из вещей, которой мы пытаемся заниматься – это каталогизация всего того, о чем может захотеть узнать какой-нибудь человек, – рассказывает он. – Мы также пытаемся соединить данный каталог с собранной поисковой машиной информацией о том, что люди ищут на самом деле».

Возьмем, например, мэра Нью-Йорка Майкла Блумберга (Michael Bloomberg). В Графе Знаний он представлен одной из 500 миллионов сущностей» (Как заметил Джианнандреа, в англоязычной Wikipedia собрана информация приблизительно о четырех миллионах сущностей). Дочери мэра, Джорджина и Эмма, также являются сущностями, как и его университет – Гарвардская школа бизнеса. В этом огромном семантическом графе, каковым и является Граф Знаний, ребра между «узлами» – между Блумбергом и его дочерями, а также местом, где он получил образование, также являются «сущностями».

И теперь, если пользователь вводит «Майкл Блумберг» в строку поиска, то Google ищет не только страницы, содержащие данную последовательность букв, но просматривает все сущности, имеющие пометку «Майкл Блумберг». «С Графом Знаний, – говорит Сингхал, – Google стал умнее. Поисковик теперь понимает, что «Тадж-Махал» это не только дворец, но и музыкальная группа, казино и множество ресторанов». Объекты, но не строки, как любит говорить Google. В отношении Майкла Блумберга, Граф Знаний распространяется на традиционные синие ссылки, панель с курируемой информацией, включающей основные моменты из биографии, и список наиболее частых запросов о нем. Введите «Том Круз» и вам будет трудно не заметить информацию о его росте. Введите «Amit Singhal» и вы сразу же узнаете, что родился он в Джханси, а также легко найдете ссылку на информацию о его учителе – Солтоне.

Самая главная цель Графа Знаний: научить компьютер понимать мир так, как его понимает человек. «Наши компьютеры не имеют ни малейшего понятия о многих из тех вещей, которые мы считаем сами собой разумеющимися, – говорит Джианнандреа. – Допустим, мы знаем о книге ‘Бесконечная шутка’ автора Дэвида Фостера Уоллеса (David Foster Wallace). Если в разговоре я оброню ‘бесконечна шутка’, то вы сообразите: ‘а, он говорит о той книге’. У наших компьютеров до сих пор не было ничего, кроме [числовых] данных и текста. Они не вкладывали никакого значения в текст, поэтому не понимали, что хранится в их памяти». Бесконечная шутка могла быть всем чем угодно; а теперь Google понимает ее, как объект в различных формах: мягком переплете, твердом переплете, формате Kindle.

Но что такое сущности, и что такое ребра? Если Дэвид Фостер Уоллес (объект) когда-нибудь бывал в Эстонии (объект), появится ли новый объект в наших метаданных между Уоллесом и Эстонией? «Нельзя ответить однозначно, – говорит Джианнандреа. – Как определяется сущность? Если я вижу ее, то знаю, что она существует. Она не обязательно должна иметь свое имя. Это может быть событие – музыкант исполняет определенное произведение в определенном месте в определенное время. Каждый конкретный перелет на самолете – это событие? Да, вероятно, но тогда каждый день происходит 30 000 новых событий, подобных этому. Включены ли все безымянные звезды в список сущностей вселенной? Наверное, нет».

Metaweb, ставший Графом Знаний, вбирает в себя все структурированные базы данных, какие только существуют в мире. «Университет Сент-Эндрюс располагает детальной информацией о карьере многих математиков, а Стэнфорд имеет аналогичные данные о философах, – говорит Джианнандреа. – В Беркли есть эксперт по пчелам. Он собрал базу данных о 40 000 видах насекомых, близко связанных с ними. Существуют сайты с каталогами американских горок, где указаны величины ускорения, количество виражей и год постройки. Существуют невероятно огромные хранилища информации буквально обо всем, что вы только можете себе представить». Работа семантического графа состоит в формировании связей, которые традиционный поиск может пропустить. «Вы будете удивлены тому, как много связей может открыться между двумя различными объектами, – говорит он. – Очень трудно подобрать понятное для компьютера описание связей между Эйнштейном и Ганди. На склоне лет оба они были пацифистами».

Если введен общий поисковый запрос, то компьютер не может понять его сути. Но, по мере того как расширяется Граф Знаний, поисковая система приближается к тому, чтобы понять то, что именно вы хотите узнать, с помощью обработки неоднозначностей («вы имеете в виду?») и фильтрации шумов. Поиск можно сбить с толку гиперонимами: словами, которые могут обозначать предметы, изменяющие свои названия в зависимости от контекста. Возьмем, например, слово «ягуар». «Оно имеет около 26 различных значений, – говорит Джианнандреа. – Животное, операционная система для Mac, популярный в Южной Америке исполнитель». Он говорит, что обладая способностью узнавать подобные слова так, как это делает человек, а не просто в качестве набора знаков, Граф Знаний «изменяет наше представление об интернете».

Google не просто предлагает алгоритмы для выполнения этой работы. Граф Знаний прошел бета-тестирование многими людьми из User Experience Lab. «Мы осуществили 12 испытаний Графа Знаний, – рассказывает Джон Бойд (John Boyd), сотрудник лаборатории, вооруженный двусторонними зеркалами и устройством для отслеживания направления взгляда. – Первые исследования были предназначены для проверки того, заметят ли люди, привыкшие к дизайну Google, появление Графа Знаний. Иногда они ‘проходили мимо’ него, так же, как это было в отношении ‘живого поиска Google’. Я характеризую поисковые запросы, как некий вид квантовых явлений. Часто люди вводят что-то в строку поиска, особо не задумываясь над тем, что именно они хотят получить».

С введением Графа Знаний Google сделал еще один шаг в будущее поиска: давать ответы, а не ссылки. В связи с этим, инженеры Google уже давно подняли вопрос авторитетности. Несколько лет назад Google столкнулся с противоречивой проблемой, когда оказалось, что по запросу «Jew» (еврей) выдается несколько ссылок на антисемитские сайты. С точки зрения чистого алгоритма – все логично и имеет логическое обоснование – люди, разделяющие подобные убеждения, не могут обойтись без использования данного слова. Теперь поиск по этому слову демонстрирует ссылку на небольшую пояснительную страницу от Google. Она, в частности, содержит следующую информацию: «Тот, кто ищет информацию о людях еврейской национальности, чаще вводит такие запросы, как ‘Judaism’ (Иудаизм), ‘Jewish people’ (Еврейский народ), ‘Jews’ (Евреи). Стоит заметить, что до возникновения этой ситуации, слово ‘Jew’ появлялось в поисковых запросах с частотой один на десять миллионов. Хотя Сингхал говорит: «мы раз и навсегда решили, что Google не должен вмешиваться в процесс [поиска]», но он постоянно подстраивается к окружающему миру. Например, недавно поисковик насолил торрент-трекеру «The Pirate Bay». Но тот факт, что запросы «Holocaust denial» (отрицание Холокоста) и «Holocaust lie» (ложь о Холокосте) дают разные результаты, в основном объясняется влиянием на поисковую выдачу социального фактора.

Кроме всего прочего, Граф Знаний оспаривает гегемонию дизайна дюжины голубых ссылок. «В вебе большое значение имеет высота расположения ссылок и анкоров, – говорит Джианнандреа. – Чего вы не можете сделать, изучая страницу о какой-нибудь игре, так это быстро решить, ‘а о каких играх мне еще следует узнать?’ Мы должны найти боковой путь в человеческом знании». Это очень образное выражение, но оно имеет и буквальный смысл: введите «London bridges» (Лондонские мосты) в Google, и вы увидите горизонтальную карусель из наиболее значимых мостов, построенных в Лондоне. Возможно, их включение в карусель обусловлено тем, что эти мосты уже представлены в Графе Знаний. Но что произойдет, если знание о чем-либо не заключено в структурированную базу данных, когда оно не является фрагментом текста, или даже, если предметом поиска кого-нибудь является то, на что он смотрит в данный момент.

Источник: www.searchengines.ru