Ретвит-каскады: предсказываем популярность контента в социальных сетях

14 февраля Андрей Купавский из отдела теоретических и прикладных исследований Яндекса рассказал, как определить популярность свежих новостей на примере Твиттера. Семинар прошел в московском офисе Яндекса и транслировался онлайн и в Твиттере по хештегу #yascience. Видео лекции будет доступно на следующей неделе на странице трансляции.

Андрей рассказал, почему исследования проводились для Твиттера и об особенностях сети. Он описал основные модели распространения информации и более детально рассказал о модели машинного обучения прогнозирования распространения контента в сети, о важности тех или иных факторов для распространения и об основных алгоритмах, используемых для прогнозов.

Твиттер, по словам Андрея, был выбран для исследования потому, что это ― вторая по размеру сеть после Фейсбука, на середину прошлого года имеющая более 50 миллионов зарегистрированных пользователей, из них активных ― более 500 тысяч. В среднем, у каждого пользователя ― 150 читателей.

В Твиттере имеется ряд особенностей, которые диктуют законы распространения контента.

Если в мире существует теория 6 рукопожатий, то в Твиттере верна теория 4 рукопожатий: почти любые два человека в сети знакомы через 4 фолловинга.

Особенность распространения информации в Твиттере в том, что она распространяется ретвит-каскадами: ретвитнув сообщение, запускается такой каскад.

Особенности каскадов в Твиттере

• ретвит получают 5-6% всех твитов;
• всего в новостных лентах ― 15% ретвитов;
• за первый час происходит 90% ретвитов.

Если твит не стал популярен в первый час ― то, скорее всего, уже не станет.

В сборе статистики ретвитов помогает twitter api. Однако Андрей уточнил, что невозможно посмотреть реальное количество людей, которые просмотрели твит. Например, на счетчиках не отразится просмотр ретвита, если в ленте читателя уже был оригинал этого сообщения.

Тремя главными факторами в предсказании популярности сообщений Андрей выделил число ретвитов за 30 секунд, авторитетность пользователя и PageRank

Популярность твита, в первую очередь, зависит от авторитетности пользователя. Начальное распространение определяет, насколько удачен этот твит для пользователя. Во-первых, это помогает в рекламе, продвижении бренда. Во-вторых, работает как социальный журнализм: компоновка популярных твитов в статью. В-третьих, влияет на улучшение качества и свежести выдачи.

Основными моделями распространения информации Андрей назвал такие:

эпидемиологическая модель;
линейная модель влияния;
машинное обучение.

Эпидемиологическая модель основывается на том, что твит ― это вирус, и у каждого пользователя есть своя вероятность «заражения» от другого пользователя.

Лента среднего пользователя наполовину состоит из сообщений, написанных топ-20 000 пользователями по числу читателей. Популярность распределена в соответствии со степенным законом.

Модель учитывает вероятности того, что «заражение» может зависеть от времени, от пользователя, и вероятность «заражения» во второй раз может быть ненулевой.

Линейная модель влияния прогнозирует распространение твита, учитывая сумму влиятельности аккаунтов, которые сделали ретвит.

Зная распространение поста на момент времени, можно прогнозировать, как пройдет распространение в следующий момент времени, например, отследив первый час, можно составить прогноз на второй-третий часы.

Более подробно Андрей рассказал о машинном обучении. С помощью обучающей выборки и заданных факторов машина учится определять, какие твиты будут популярными, а какие нет, отметив, что в Яндексе есть алгоритм по фильтрации ботов в Твиттере.

На основе определенных факторов твиты разбиваются на классы. Факторы, которые учитываются в первую очередь ― это социальные факторы (число читателей и среднее число ретвитов) и контентные факторы (длина, наличие хэштегов и ссылок и др.). Популярность твита не сводится к контенту, роль играет пользователь, запостивший его.

Недостатком этой модели Андрей назвал то, что нет физического смысла, непонятно, как именно распространяется твит, теряется наглядность линейной модели влияния. Тем не менее, модель была выбрана за то, что дает хороший результат, предсказания точны, легко улучшать алгоритм за счет добавления новых факторов, к тому же, она имеет маленькую вычислительную сложность.

Предсказанное число от прогноза отличается в 2-3 раза. Самым точным прогнозом является краткосрочный прогноз ретвит-каскада: 30 секунд, несколько минут.

Предлагая модель рекламной стратегии, исходя из стоимости одного читателя в 10 копеек при цене пользователя в 10 рублей, наиболее эффективными Андрей отметил пользователей, получающих в среднем менее одного ретвита. Даже при стоимости пользователя в 1000 рублей, оптимальными будут пользователи, получающие по несколько ретвитов.

Детальнее о предсказании ретвит-каскадов с течением времени Андрей предложил ознакомиться в его статье Prediction of Retweet Cascade Size over Time.

Отвечая после доклада на вопрос, как влияет качество твита, содержание ссылки (например, это будет ссылка на Инстаграм или на другой ресурс) на количество ретвитов, Андрей отметил, что вероятность ретвита несколько повышают наличие ссылок в принципе, независимо от содержания. Также на ретвитинг влияют длина, наличие хэштегов, несколько повышает вероятность ретвита и положительное настроение поста.

Единственный фактор, который некоторым образом понижает вероятность ретвита конкретного твита ― если он является ответом на сообщение.

Отвечая на вопросы о планах дальнейших разработок и конкретного применения результатов, Андрей рассказал, что сейчас проводятся исследования отдельно и для русского Твиттера.

Практическое применение предсказания популярности контента будет состоять не только в рекламных целях, но и использоваться для улучшения поиска, качества и свежести выдачи. После того, как технология будет отработана, можно будет говорить и о широком применении. Яндекс собирается предсказывать переходы по ссылкам из Твиттера и использовать это в различных сервисах: в поиске по картинкам и видео, по новостям, по контенту.

Кроме того, такого рода прогнозирование относится не только к Твиттеру. При наличии открытых источников данных, предсказать популярность записей можно будет в любых социальных сетях

Скетчнотинг по итогам семинара от dwht =)