Поиск@Mail.ru: машинное обучение и другие поисковые технологии

Сегодня мы берем интервью у руководителей команды Поиска@Mail.Ru, которые любезно согласились ответить на наши вопросы о поиске. Это Владимир Габриелян, вице-президент и технический директор Mail.Ru Group, Андрей Калинин, руководитель разработки Поиска@Mail.Ru, Алексей Воропаев, руководитель отдела ранжирования, Дмитрий Азаренков, руководитель отдела оценки качества Поиска@Mail.Ru, Евгений Годов, руководитель отдела интерфейсов и Михаил Старов, бренд-менеджер Поиска@Mail.Ru

SE: - В декабре прошлого года Поиск@Mail.ru увеличил свою поисковую долю до 7,5%, что заставило аналитиков говорить о появлении третьего крупного игрока на поисковом рынке России. Как показываетстатистика, за последние три месяца этот показатель не изменился, а даже чуть-чуть вырос. Это говорит об эффективности той стратегии, которую избрал для себя Поиск@Mail.ru, и которой придерживается. Но.

В связи с последними событиями, а именно: многочисленными улучшениями существующего поискаMail.ru и запуском новой версии собственного поискового движка, разработанной вашей командой, возникает вопрос: - Чем вас не устраивает нынешняя выдача Мэйла? Зачем делать собственный движок, если следуя поговорке, одна голова – хорошо, а две – лучше? Чем плохо сегодняшнее положение – собственный поиск по рунету и поиск Google по зарубежному? Ведь эта стратегия уже приносит свои видимые плоды в виде увеличения доли на поисковом рынке?

Михаил Старов, бренд-менеджер: Небольшая поправка: в феврале доля нашего Поиска в России по трафикогенерации (Li.ru) составила 9.4%. Но активный рост идет не только в России – например, в Казахстане мы в январе-феврале обогнали Яндекс на 2 процентных пункта и теперь нам принадлежит 25.3% казахского рынка. При этом важно отметить, что доля остается достаточно стабильной на протяжении последних 2-3 месяцев.

Андрей Калинин, руководитель разработки: Если говорить о необходимости разработки новой версии, то нынешняя выдача Поиска@Mail.Ru нас не устраивает, прежде всего, ее качеством: как по нашим метрикам, так и по внешним наблюдениям, мы еще отстаем от конкурентов. Новая версия поиска наhttp://o.go.mail.ru/ во-первых, лучше по качеству, а во-вторых, дает нам возможность быстрее реагировать на изменения в вебе, добавлять новые факторы ранжирования.

SE: – На Оптимизации 2011 вы объявили о внедрении технологий машинного обучения и введении оценки выдачи асессорами. Как же раньше работал Поиск@Mail.ru? Разве он совсем не пользовался услугами асессоров? Каким образом осуществлялось ранжирование?

Андрей Калинин: Да, мы создали асессорскую службу в 2011-м году, до того мы оценивали качество собственными силами разработчиков, а также тестированием на сплитах, т.е. когда часть пользователей видит новую выдачу, а часть – старую.

Использовать разработчиков для непосредственной оценки качества нерационально, а сплит-тестирование имеет большое количество нюансов в интерпретации. Кроме того, в целом нельзя давать на сплит-тест совсем уж сырые версии, они все равно должны быть где-то проверены до показа настоящим пользователям. В то время как асессорская служба дает возможность производить оценку качества поиска постоянно, оценивать любые изменения без необходимости их выкатки «в бой».

SE: – Расскажите об аудитории Поиска@Mail.ru – какая она, отличается ли от аудитории других поисковиков и чем?

Михаил Старов: Судя по данным TNS, Поиск@Mail.Ru стал самой быстрорастущей поисковой системой за последний год. Ежемесячная аудитория Поиска выросла на 35,5% (Рунет – только на 14,2%, Яндекс – на 14,3%). В феврале у нашего поиска было более 15,5 млн. пользователей (только в России, по городам 100 000+). Что важно, также динамично растет ядро пользователей, которые пользуются Поиском@Mail.Ru ежедневно и еженедельно.

По нашим исследованиям, аудитория Поиска@Mail.Ru в среднем взрослее, чем в целом по Рунету, кроме того, использование нашего поиска более характерно для жителей регионов и средних городов Дальнего Востока, Сибири, Урала. Среди наших пользователей больше женщин, чем мужчин.

SE: – Яндекс недавно запустил сервис People.Яндекс – так называемый поиск по социальным сетям, планирует ли Поиск@Mail.ru работу в этом направлении? Ведь в его распоряжении большое количество персональной информации из крупнейших соцсетей – Мой мир и Одноклассники?

Андрей Калинин: У нас уже есть извлечение данных из профилей, а также специальная ветка в алгоритме ранжирования, которая отдает им предпочтение, если пользователь ищет человека. Однако, делать из этого специальную вертикаль мы в ближайшее время вряд ли будем. Надо понимать, что наши пользователи итак успешно ищут людей в тех местах, где им это удобно – в Агенте, в Моем Мире и Одноклассниках. Там огромное количество запросов, и хороший, многокритериальный поиск, пользователи к нему привыкли и менять их привычки мы пока не видим большого смысла.

SE: – Будет ли новый алгоритм учитывать рекомендации из других социальных сетей? А не только из Одноклассников и Моего мира?

Алексей Воропаев, руководитель отдела ранжирования: Это вопрос получения данных, а не алгоритма. Если мы начнем получать данные из других социальных сетей, то сможем достаточно оперативно «замешать» их в ранжирование.

SE: – Учитывается ли при ранжировании количество органических результатов выдачи на видимой части экрана? Ведь сейчас различные вертикали – карта и т.д. вытесняют органические результаты вниз.

Андрей Калинин: Это не столько вопрос ранжирования, сколько вопрос логики смешивания вертикалей с выдачей поиска по всему вебу. Естественно, во время анализа того, что нужно а что не нужно показывать из вертикалей по данному запросу, мы используем всю имеющуюся информацию, но под конкретный экран пользователя, задавшего запрос, не подстраиваемся. Скорее, мы ориентируемся на «средний» экран пользователя интернета.

SE: – Можете ли рассказать об асессорах Поиска@Mail.ru – сколько их, кто они и совпадает ли ваша система критериев оценки сайтов с подобной системой Яндекса?

Дмитрий Азаренков, руководитель оценки качества поиска: Сейчас у нас работают более 60 асессоров. Методика оценки очень близка как к Яндексу, так и к Google – она продиктована в первую очередь здравым смыслом и поэтому у всех примерно одинакова. Но есть и отличия, которые сформировались за год, прошедший с момента создания службы асессоров.

Вообще, механизм оценки живой и меняется вместе с интернетом. Какие-то критерии теряют свою значимость, другие, напротив – приобретают больший вес. В связи с запуском алгоритмов на основе машинного обучения пришлось так же менять некоторые критерии, поскольку различия, которые интуитивно видны человеку, даже очень умному алгоритму не всегда очевидны.

SE: – Как асессор определяет достоверность и правильность информации на сайте? Ведь бывает так, что она вроде бы по теме – но неправильная. Например, ошибка в формуле решения квадратного уравнения, ошибка в дозировке лекарства рекомендуемого при лечении какой-либо болезни?

Дмитрий Азаренков: Мы не осуществляем проверку достоверности информации, такое, я думаю, вообще никому не под силу. Но поскольку мнение асессора не окончательное, то в любом случае больший вес будут иметь сайты с большей значимостью. Очевидно, что если говорить про лекарства, то информацию максимальной достоверности можно найти на сайте производителей, и минимальной – на форумах. Но чаще пользователей при поиске интересует личный опыт, а не официальные характеристики, и тут уже проверка достоверности – это совсем утопия.

Есть еще одна интересная история с лекарствами. Мы привлекли эксперта по теме для того, чтобы выяснить его отношение к информации, доступной в интернете. Так вот оценку «точный ответ» он ставил только в том случае, если на вопрос – «а что у меня, если у меня болит вот тут?» или «чем лечить такую болезнь?», был ответ – «обратитесь к доктору».

Нужно понимать, что информация в интернете должна каждым пользователем пропускаться через призму здравого смысла и соотносится с авторитетностью сайта, на котором она размещена. Даже в лицензионном соглашении Википедии написано: «Никто из авторов, участников, спонсоров, администраторов, операторов и лиц, как-либо еще связанных с Википедией, не несет ответственность за появление неточной или ложной информации, а также за использование вами данных, содержащихся на этих веб-страницах либо найденных по ссылкам с них».

SE: – Какой он – идеальный сайт, с точки зрения асессора Mail.ru?

Дмитрий Азаренков: Полезный для человека. Но почему-то никто не верит в эту с виду такую простую формулу – делайте сайт для людей. А на самом деле – именно эта формулировка на все 100% отвечает на заданный вопрос.

Простой пример – как можно понять, будет ли сайт оценен асессором положительно или нет. Ставим себя на место пользователя и пытаемся понять, а что в итоге ему нужно?

Для примера – запрос «Отзывы о пластиковых окнах «XXX»».
Получаем сайт супер-крупной фирмы по производству этих самых окошек, где менеджеры вовсю расписали какие они производят супер-окошки – пользователь получил, что хотел?
Получаем сайт с собранными отзывами – вроде все хорошо, но шрифты такие, что не прочитаешь – какую оценку получит страница?
Снова сайт с собранными отзывами, но прежде чем к ним добраться, нужно закрыть сто тысяч миллионов выпрыгивающих рекламных окошек – какая оценка?
Наконец – страница форума, где идет обсуждение этих самых окошек именно этой фирмы. Да, есть Директ и баннер с рекламой висит в уголке, но реклама не мешает и не раздражает. Странички открываются быстро, отзывов много и по делу…. По-моему, очень прозрачно и очевидно – какая страница какую оценку получит и почему.

SE: – Как новый поиск борется с поисковым спамом, и как относится к взрослому контенту? Какие методы используются?

Алексей Воропаев: В настоящее время у нас имеются три системы спамобороны: контентная, поведенческая и ссылочная.

Контентный антиспам анализирует содержимое страницы на наличие спам-контента. Поведенческий антиспам призван искать пользователей с аномальным поведением, после чего они исключаются из расчета поведенческих факторов. Ссылочный антиспам в основном ищет линкофермы.

Отдельная проблема для нас – как использовать результаты анализа? К сожалению, в большинстве случаев нельзя однозначно сказать, спам-страница это или нет. Более того, бывают ситуации, в которых удаление спам-страниц из выдачи приводит к деградации качества. Это заставляет нас использовать результаты анализа гибко, например, оставляя спам-страницу в индексе, если поведенческие факторы говорят о том, что она нравится пользователям.

Что касается взрослого контента – мы анализируем содержимое страницы на предмет такого контента (оценивая, в основном, по ключевым словам и поведенческим факторам), а так же анализируем запрос, пытаясь понять, хочет пользователь такого контента или нет. В случае, если запрос определяется не как порнографический, мы удаляем взрослый контент из выдачи.

Про систему контентного антиспама и фильтрацию порнографии мы подробно рассказывали на конференции «Прикладная лингвистика и искусственный интеллект 2012», если вы хотите познакомиться с деталями их работы, вы можете найти слайды презентаций на сайте ai-conf.ru

SE: – Как долго различные инновации в сфере интерфейсов, поисковых «подмесов» и вертикалей, будут тестироваться на o.go.mail.ru и как быстро они будут появляться на основной версии поисковика go.mail.ru?

Евгений Годов, руководитель разработки интерфейсов: Обычно для качественного сплит-теста достаточно полной рабочей недели. Запуск новых интерфейсов и продуктов происходит в пределах полутора-двух недель. Большинство возможностей мы тестируем и запускаем сразу на основном поиске, поскольку на большей аудитории можно гораздо быстрее собрать данные для оценки эффективности новых фич. При этом все эксперименты можно увидеть на тестовой версии.

SE: – Как у нового поиска обстоит дело с региональной выдачей? Умеет ли новый поиск автоматически определять местоположение пользователя и давать ему релевантные результаты, скажем, по коммерческим запросам?

Алексей Воропаев: Мы активно работаем в этом направлении. Не так давно мы рассказывалипользователям Хабра о том, как в нашем случае определяется география сайта. Сейчас мы интенсивно работаем над гео-ранжированием и определением геозависимости запросов, планируем сделать релиз регионального поиска уже во втором квартале текущего 2012 года.

SE: – Google, говоря о факторах ранжирования, называл цифру 200+, Яндекс ведет речь о 420 факторах. Сколько факторов ранжирования у Поиска@Mail.ru? И какие из них наиболее важные?

Алексей Воропаев: На текущий момент мы используем более 250 факторов. Но наш проект сейчас находится в очень активной фазе развития и новые факторы появляются ежемесячно, что сразу положительно сказывается на качестве. Отвечая на вопрос о важности факторов, могу сказать, что одной из самых важных групп факторов являются поведенческие. Без наших пользователей мы бы не смогли добиться такого высокого качества, за что им спасибо!

SE: – Как новый поиск Мэйла будет относиться к так называемым способам манипулирования выдачей? Предполагается ли в дальнейшем введение жестких санкций за покупку ссылок, накрутку поведенческих и проч. (сначала Матрикснет, как у Яндекса, потом – борьба с оптимизаторами)?

Андрей Калинин: Мы не собираемся намеренно и проактивно «воевать» с оптимизаторами. Однако все виды спама в том или ином виде вредят поиску, и с ним мы, безусловно, будем бороться.

SE: – В чем заключается взаимодействие оптимизаторов и Поиска@Mail.ru? Каким вы видите это взаимодействие?

Андрей Калинин: Единственная форма взаимодействия – общение. Мы выступаем на конференциях и семинарах, рассказываем о своем видении поиска. На мой взгляд, это вообще большая проблема, что оптимизаторы воспринимают поисковую систему как некий агрегат по привлечению пользователей к себе на сайт. Поэтому приходится вести серьезную разъяснительную работу.

SE: – Как же попасть в Топ Поиска@Mail.ru?

Андрей Калинин: Да-да, вот этот вопрос. Или более конкретно: «сколько нужно купить естественных ссылок, чтобы попасть на первое место?». Поиск так не работает, поиск фиксирует отличия между хорошими и плохими сайтами, а не придумывает их. Если сайт хороший и чем-то отличается от других, то поиск должен будет его хорошо показывать вне зависимости от используемых алгоритмов. Когда же в выдаче уже есть сто одинаковых сайтов, а оптимизатор хочет туда запихнуть 101-й такой же, то он туда попросту не влезет, а сверху будет более-менее случайный набор из 10 сайтов, которым «повезло».

Поэтому совет малооригинальный – сделайте хороший сайт, убедитесь, что он нравится посетителям, чем-то для них ценен, и он сам пробьется наверх и будет там в любом поиске.

SE: – Есть ли в планах отказ от поискового движка Google и для поиска по всему миру?

Владимир Габриелян, технический директор Mail.Ru Group: Мы занимаемся развитием собственных поисковых технологий и умеем гибко включать свой поисковый движок на разных типах запросов – как в зависимости от региона, в котором находится пользователь, так и в зависимости от типа запроса. Мы постоянно улучшаем качество нашего поисковика, и зона его покрытия растет, однако я не могу сказать, что написание собственного поиска по всему мировому интернету – дело ближайшего времени.

Источник: www.searchengines.ru