Илья Сегалович. Интервью с главным программистом Яндекса

Как я и обещал полгода назад, публикую сегодня интервью с Ильей Сегаловичем, главным программистом Яндекса. По сути, это лог разговора в аське, из которого выдраны даты сообщений и переформатирован текст.

Gray: Как получилось так, что Вы начали заниматься вопросами поиска – возникла очередная задача или сознательно решили работать именно в этом направлении?
Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка
и относился к этой деятельности поверхностно и снисходительно (до этого я занимался
интегральными уравнениями второго рода в геофизике : )) позвал меня сначала на
мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я
втянулся и понял, что это всерьез и надолго.
Gray: Аркаша – это Волож?

Сегалович: : ) воложок

Gray: Надо запомнить : )

А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели
или

учились в бою – есть задание, надо его выполнять?

Сегалович: когда мне волож рассказал про их с Борковским идею искать
со словоформами я решил – это заезжено и тривиально потом стал писать Новости медицины, влез
в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д.
и т.д Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok)
и я познакомился с

Апресяном и Ко. Стало еще интересней : )

Gray: И когда в итоге интерес достиг высшей точки?

Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают
мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7
назад, можно уже спокойно вернуться в геофизику” : )

может я так и сделаю, когда-нибудь, пока мне здесь интересно.

Gray: А в чем вопрос? Геофизика тянет?

Сегалович: если бы не было веба, то поисковые системы – сильно вычерпанная
тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность
(социальная значимость : )) выросла на порядки – это случилось как-то вдруг в
1995-1996 годах.

Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной
(теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?

Сегалович: ага.

Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая
конкуренция – стало очень

интересно жить.

Gray: и именно это держит Вас в Яндексе?

Сегалович: Ну, зачем же так упрощать : )

Зарплата еще хорошая : ).

Gray: понятно.

Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие?
Неужели это только борьба со спаммерами?

Сегалович: ну почему же – это масса интересных задач как технического,
так и социального смысла:

- mirrors mirrors on the web

- каталог и его связь с поиском

- размеры большие

- да много чего еще

короче, не только и не столько спаммеры, сколько просто обеспечение свежести,
полноты, точности в масштабах веба – очень интересная задача.

Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков?
Скажем, технология PageRank, применяемая Google, учитывается в Я.?

Сегалович: pagerank это не технология а классический алгоритм расчета
“взвешенной цитируемости” – простая задача из теории графов – прямо
в интернете можно найти учебники по теории графов с оцень похожими задачами
(определение победителя в шахматном турнире по швейцарке и т.п.)

Да, мы считаем взвешенный индекс цитирования – но “бес кроется в деталях”.
: )

Gray: Google прямо говорит, что наличие ссылок необходимо для индексации
документа, т.е. PageRank – это основной фактор в поиске.

Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того.
В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов
большинство.

Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется
или пока только шлифовка, устранение глюков и т.д?

C: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем
новый.

Gray: А какие вообще теоретически есть возможности модернизации поиска?
Т.е. что можно сделать, но

оно пока не имеет смысла или нерентабельно?

Сегалович: я пытался на это отвечать в вопроснике украинцам

- более широкое и глубже осмысленное использование “внетекстовых”
критериев (то есть, инфомации “вне” текста индексируемого документа)
- это надо раскрывать подробнее

- более широкое применение P2P

- умная кластеризация выдачи

- развитие контекстно-зависимого аннотирования.

Gray: т.е. в целом это можно назвать созданием искусственного интеллекта
на сервере, который бы анализировал запрос и искал по доступной базе по тем
же критериям, что и человек?

Сегалович: ни за что на свете – я ненавижу сочетание искусственный интеллект.
У нас оно используется, в основном, в издевательском смысле : ) Посмотрите, как
напыщенно переводится information retrieval на русский – никто не пишет “поиск”,
самое скромное – “интеллектуальные системы” : ).

оставим “интеллект” конторам типа гербалайф-эскалибур: ), мы же просто
ищем.
Продолжение следует…

Источник: www.searchengines.ru