Апр
Что Яндекс рассказывал студентам про Поиск?
Вчера в Москве Яндекс провёл конференцию для студентов не технических специальностей и просто молодых людей, которым интересен Поиск Яндекса – СтуДень. Сотрудники компании Яндекс рассказали о том, с чего начиналась история крупнейшего интернет-портала и что из себя представляет поиск Яндекса в настоящий момент.
Аудитория, собравшаяся на мероприятии, преимущественно изобиловала молодыми студентами как гуманитарных, так математических и технических специальностей. Кроме того присутствовали преподаватели вузов. Без любопытных оптимизаторов дело тоже не обошлось. Но их было не столь много, как, например, на профильной конференции «Поисковая оптимизация и продвижение сайтов в Интернете».
Открыл конференцию вступительным словом Андрей Себрант. Он представил картинку, как выглядит студент из Яндекса и каким видят Яндекс сами пользователи. В качестве примера Андрей показал, серию запросов, которые спрашивают у поисковика студенты, в порядке поступления одного пользователя за одну сессию. Получилось следующее: сначала пользователь задаёт общий запрос [капитал], далее усложняет и уточняет его [капитал политэкономия], [переменный капитал политэкономия], затем ищет [quake 2 пароли], [quake 2 читы], возвращается вновь к интересующей его теме [рынок труда капитал], и в конце резюмирует, что же именно ему всё-таки нужно [капитал реферат].
Илья Сегалович, директор по технологиям и разработке компании Яндекс, рассказал слушателям краткую историю становления поисковой системы. Так в далёком 1997 году Яндекс обрабатывал 10 тыс. запросов в день, в 2001 г. – 1 млн., в 2005 г. – 10 млн. На сегодняшний день эта цифра достигла 100 млн. запросов в день.
Причём поиск Яндекса – один из не многих, который существует в мире (в США – Google, Yahoo, Bing; в Чехии – Seznam, в Китае – Baidu, в Южной Корее – Naver). Сейчас поиск Яндекса умеет показывать картинки, новости, товары из Маркета, пресс-портреты, карты, объявления, погоду, умеет переводить и проигрывать музыку. И самое главное – научился показывать ответ пользователя с учётом его региона.
Отвечая на вопросы слушателей, Илья сообщил, что пока Яндекс не собирается выпускать операционную систему (как Google). В будущем необходимо развивать поиск по 3-м направлениям: 1) надо лучше обрабатывать текст; 2) учитывать контекст пользователя в самом широком смысле; 3) учитывать точки, где находится пользователь и когда он задаёт вопрос (время и место).
Анатолий Орлов, руководитель всей разработки поиска Яндекса, рассказывал о том, как устроены поисковые системы. И в начале своего доклада Анатолий пояснил молодой интересующейся публике, что поиск осуществляется по заранее подготовленным данным – поисковому индексу. Именно поэтому на это тратится времени меньше секунды.
Говоря о первом поисковом сервере Яндекса, Анатолий отметил, что каждый раз, когда на него приходил запрос, он начинал шуршать. И программисты этому очень радовались. Сейчас интернет уже не тот, поэтому речь уже идёт о поисковых кластерах.
Поисковый индекс собирается благодаря большому роботу (около 9B страниц, в среднем раз в 2 недели) и быстрому (существенно меньше страниц, от 5-7 минут для важных документов до 1-2 часа для остальных).
Новые сайты добавляются в индекс с помощью ссылок с других сайтов, формочки «добавить сайт» и Яндекс.Бара.
Татьяна Бахаревская, руководитель отдела системного администрирования в Яндексе, сломала все представления о сисадминах. «Типичный российский сисадмин», – пошутил Андрей Себрант. Татьяна поведала об эксплуатации сервисов и дата-центрах.
В Яндексе 7 дата-центров и несколько тысяч серверов. Работает больше 100 системных администраторов, сетевых инженеров, инженеров ДЦ и др. Постоянно растёт нагрузка, с которой помимо всего помогают бороться архитектура, производитель оборудования.
Дата-центры есть в Москве и Подмосковье. На карте, представленной аудитории, были отмечены 3 дата-центра в Москве и 2 в области. Это не все, конечно, и точное их месторасположение – секрет. «Все связаны сетью. У нас есть оптическое кольцо по Москве», – уточнила Татьяна. А вот в Сибири строить ДЦ пока не планируется.
Виталий Титов (отдел лингвистических технологий) поведал про анализ запроса. Запросы пользователей могут быть неоднозначны. Например, если рассматривать запрос [сели батарейки], слово «сели» может иметь несколько значений: глагол садиться, глагол селить, существительное сель. При анализе запроса важно: определение языка, морфология, снятие омонимии, синонимичные расширения, выделение объекта, классификаторы и вычисление факторов.
Фёдор Романенко, менеджер отдела качества поиска, рассказал про ранжирование и немного о Матрикснете.
Ранжирование – это не только основной алгоритм в поиске. Он определяет долю на рынке. Поэтому и держится поисковыми компаниями в строжайшем секрете. Секреты ранжирования особенно интересны оптимизаторам. «Но мы вынуждены скромничать по этому поводу», – говорит Фёдор.
С запуском Матрикснета осенью 2009 года качество поиска значительно увеличилось (синяя линия). Это собственная разработка Яндекса. Модель Матрикснета не переобучается, а, следовательно, можно добавлять сколько угодно факторов.
Матрикснет автоматически выбирает связанные факторы и диапазоны их значений. Он генерирует тысячи комбинированных факторов.
Фёдор представил публике одну из формул Матрикснета, которая вычисляет релевантность по факторам найденного документа:
Изменения в Поиске сильно влияют на долю на рынке. В следствие того, что поиск Рамблера долгое время не менялся, поисковик начал терять аудиторию. Mail.Ru заменил поиск Яндекса на GoGo.Ru – доля обрабатываемых запросов также начала падать. Яндекс ввёл Матрикснет – доля запросов начала расти.
Александр Садовский, руководитель отдела веб-поиска, выделил основные отличия Яндекса от других типовых компаний:
• Пользователи.
• Возможность выкатывать продукт мгновенно.
• Работа на реальном международном рынке. «Если сделать алгоритм чуть похуже, тут же заползёт в эту щель Google. Кстати, почему дверь открыта», – шутливо проговорил Александр.
• Отсутствие заказчика.
Многие решения, принимаемые в Яндексе сложны, потому что продукта как такового нет. Бывает сложно, так как продукт инновационный. Кроме того, решения не измеримы.
Есть три способа решения о продукте:
1. интуиция. Это не какое-то предсказание, а здравый смысл. В Яндексе есть поговорка «Поговорить об кого-то».
2. Обратная связь:
- прямая (отзывы);
- косвенная, основанная на поведении пользователя.
Когда реализовано локальное ранжирование, как убедиться, понравилось пользователю или нет? Учитывается
• Позиция первого клика
• Доля некликнутых ссылок
• Доля «длинных» кликов
• и т.д.
После запуска регионального ранжирования в Яндексе на галочку с регионом в поиске стали меньше кликать.
Также Александр отметил, что пользователи внутри одной страны (например, Украина) разные. Давать им один саджест на всех – не целесообразно.
Яндекс умеет находить запросы, по которым хотят видеть картинки:
- содержит слова-маркеры (фото, картинка, схема…);
- чаще спрашивают в поиске по картинкам, а не по вебу;
- кликают чаще в поиске по картинкам;
- является ассоциацией к картиночному запросу.
Однако косвенное поведение можно отслеживать не только в поиске. Александр говорит, что они смотрят на все сервисы. С помощью внутрикорпоративных программ, в Яндексе знают, к примеру, на какие сервисы на главной Яндекса кликают чаще. Интересы пользователей меняются.
Источник: www.searchengines.ru