Апр
Что Яндекс рассказывал студентам про Поиск? (часть II)
Внимательные и постоянные читатели Searchengines.ru помнят, что на прошлой неделе Яндекс устроил Студенческий день и рассказал на первоапрельской (но вовсе не шуточной) конференции о поиске и поисковых сервисах.
В первой части обзора мы писали о том, что на СтуДне Илья Сегалович коротко посветил студентов в историю становления компании и поисковика, Анатолий Орлов рассказал о поисковом индексе, очаровательная «сисадминша» Татьяна Бахаревская о нагрузках и дата-центрах. Кроме того, Виталий Титов поведал слушателям про анализ запросов, Александр Садовский о поиске и принятии решении, Фёдор Романенко о ранжировании.
Некоторые факты о Матрикснете рассказали Аркадий Волож и Илья Сегалович на пресс-конференции в рамках СтуДня. «В прошлом году у нас произошёл сильный прорыв в области поиска. А именно речь идёт о запуске Матрикснета», – начал выступление Аркадий Волож.
Аркадий напомнил, что наука, стоящая за Матрикснетом, называется – машинное обучение. Наука не новая, возникла в 50-е гг., когда появились первые радары во время войны. С тех пор многие задавались вопросом, как улучшить работу того, чтобы не диспетчер отличал своих от чужих, а машина.
Сейчас машинное обучение применяется в области распознавания текста, голоса. На сегодняшний момент имеется десяток разных школ по машинному обучению. И 2 из этих школ считаются основными – SVM и Boosting.
Первая половина машинного обучения – асессоры. Вторая половина – как можно больше признаков. В Яндексе учитываются многие сотни признаков, относящихся к документу, запросу, сайту, пользователю. Среди них:
• слова запроса в документе
• слова в ссылках на документ
• комбинация (1) и (2)
• URL документа
• лексика всего сайта
• ссылочная популярность сайта и документа
• посещаемость
• структура сайта, запроса, документа
• поведение пользователя
• регион пользователя
• и т.д.
Все признаки значимы и важны в той или иной мере.
Чем Яндекс отличается от TreeNet:
• Строятся более устойчивые решающие правила.
• Не теряется ни один обучающий пример (регуляризация значений в листах).
• Умение считать быстро (начинаем с простых моделей, заканчиваем сложными).
В результате научились строить очень сложные модели. Раньше полагали, что чем сложнее модель, тем более она склонна к переобучению. Но благодаря Матрикснету оказалось, что можно строить очень сложные модели, которые детально покрывают все особенности данных и оценок, и в то же время не переобучать. Даже более того, чем длиннее строится решение, тем точнее оно работает. В результате чего получаем:
• Модель из тысяч решающих правил лучше отвечает на редкие и трудные запросы.
• Обучение по отдельным классам запросов.
• Кластеризация вычислений = скорость работы = практическая применимость.
Матрикснет позволил покрыть большее количество городов, для которых показывается локальная выдача.
Аркадий Волож сообщил интересную статистику. Если версии поисковых платформ улучшают качество поиска на 0,1%, они выкладывается в продажу. Большие релизы Яндекса (например, Арзамас) – это улучшение качества на 1-2%. С запуском Матрикснета произошёл скачок в 5%.
В компании работает 2060 человек. Тысячный сотрудник был принят на работу в Яндекс в 2007 году. Двухтысячным работником Яндекс пополнился сравнительно недавно – в начале 2010 года.
В компании работают люди в возрасте от 20 до 55 лет. Средний возраст сотрудника Яндекса – 27 лет. Рабочий коллектив представляет 150 вузов России и стран СНГ.
Так как аудитория, собравшаяся на Я.Студне, преимущественно молодая, студенческая, то им сообщили приятную новость. Студентов в Яндекс берут, даже без опыта работы. За первый квартал 2010 года в Яндекс пришли работать 15 студентов, 10 из них в департамент разработки, 4 в маркетинге и 1 в управление проектами.
За подбор персонала в Яндексе отвечают 7 человек. При трудоустройстве в Яндекс положительную роль играют рекомендации самих сотрудников.
Как же организовывается внутренняя работа свыше 2 тыс. человек? Отчасти секрет кроется во внутренних координирующих сервисах. Вики – один из основных внутренних сервисов, в котором публикуется различная внутренняя информация. [Самый известный публичный вики проект – Википедия.]
Вики Яндекса 7 лет. По объёму страниц она занимает 10% от русской Википедии. Ежедневно сюда добавляется 60-70 новых страниц. За время своего существования (с 2003 г.) здесь накопилось достаточно много различной информации.
Чаще всего на Вики Яндекса сотрудники просматривают меню в столовой, так как оно ежедневно обновляется. Вторая по популярности страница – check list с задачами по релизу первой страницы Яндекса. В среднем сотрудник Яндекса подписан на 17 рассылок. Рекордсмен – обсуждение того, что неправильно в столовой режут яблоки.
Источник: www.searchengines.ru