Ноя
Илья Сегалович. Интервью с главным программистом Яндекса
Как я и обещал полгода назад, публикую сегодня интервью с Ильей Сегаловичем, главным программистом Яндекса. По сути, это лог разговора в аське, из которого выдраны даты сообщений и переформатирован текст.
Gray: Как получилось так, что Вы начали заниматься вопросами поиска – возникла очередная задача или сознательно решили работать именно в этом направлении?
Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка
и относился к этой деятельности поверхностно и снисходительно (до этого я занимался
интегральными уравнениями второго рода в геофизике : )) позвал меня сначала на
мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я
втянулся и понял, что это всерьез и надолго.
Gray: Аркаша – это Волож?
Сегалович: : ) воложок
Gray: Надо запомнить : )
А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели
или
учились в бою – есть задание, надо его выполнять?
Сегалович: когда мне волож рассказал про их с Борковским идею искать
со словоформами я решил – это заезжено и тривиально потом стал писать Новости медицины, влез
в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д.
и т.д Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok)
и я познакомился с
Апресяном и Ко. Стало еще интересней : )
Gray: И когда в итоге интерес достиг высшей точки?
Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают
мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7
назад, можно уже спокойно вернуться в геофизику” : )
может я так и сделаю, когда-нибудь, пока мне здесь интересно.
Gray: А в чем вопрос? Геофизика тянет?
Сегалович: если бы не было веба, то поисковые системы – сильно вычерпанная
тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность
(социальная значимость : )) выросла на порядки – это случилось как-то вдруг в
1995-1996 годах.
Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной
(теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?
Сегалович: ага.
Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая
конкуренция – стало очень
интересно жить.
Gray: и именно это держит Вас в Яндексе?
Сегалович: Ну, зачем же так упрощать : )
Зарплата еще хорошая : ).
Gray: понятно.
Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие?
Неужели это только борьба со спаммерами?
Сегалович: ну почему же – это масса интересных задач как технического,
так и социального смысла:
- mirrors mirrors on the web
- каталог и его связь с поиском
- размеры большие
- да много чего еще
короче, не только и не столько спаммеры, сколько просто обеспечение свежести,
полноты, точности в масштабах веба – очень интересная задача.
Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков?
Скажем, технология PageRank, применяемая Google, учитывается в Я.?
Сегалович: pagerank это не технология а классический алгоритм расчета
“взвешенной цитируемости” – простая задача из теории графов – прямо
в интернете можно найти учебники по теории графов с оцень похожими задачами
(определение победителя в шахматном турнире по швейцарке и т.п.)
Да, мы считаем взвешенный индекс цитирования – но “бес кроется в деталях”.
: )
Gray: Google прямо говорит, что наличие ссылок необходимо для индексации
документа, т.е. PageRank – это основной фактор в поиске.
Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того.
В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов
большинство.
Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется
или пока только шлифовка, устранение глюков и т.д?
C: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем
новый.
Gray: А какие вообще теоретически есть возможности модернизации поиска?
Т.е. что можно сделать, но
оно пока не имеет смысла или нерентабельно?
Сегалович: я пытался на это отвечать в вопроснике украинцам
- более широкое и глубже осмысленное использование “внетекстовых”
критериев (то есть, инфомации “вне” текста индексируемого документа)
- это надо раскрывать подробнее
- более широкое применение P2P
- умная кластеризация выдачи
- развитие контекстно-зависимого аннотирования.
Gray: т.е. в целом это можно назвать созданием искусственного интеллекта
на сервере, который бы анализировал запрос и искал по доступной базе по тем
же критериям, что и человек?
Сегалович: ни за что на свете – я ненавижу сочетание искусственный интеллект.
У нас оно используется, в основном, в издевательском смысле : ) Посмотрите, как
напыщенно переводится information retrieval на русский – никто не пишет “поиск”,
самое скромное – “интеллектуальные системы” : ).
оставим “интеллект” конторам типа гербалайф-эскалибур: ), мы же просто
ищем.
Продолжение следует…
Источник: www.searchengines.ru