Модель для прогнозирования количества просмотров Youtube стиля Gangnam

73

Музыкальный клип PSY "Gangnam style" популярен, и спустя немногим более 2 месяцев его смотрят около 540 миллионов человек. Я узнал об этом от моих детей в возрасте до обеда на прошлой неделе, и вскоре дискуссия пошла в направлении того, можно ли сделать какое-то предсказание, сколько зрителей будет через 10-12 дней и когда (/ если) песня пройдет 800 миллионов зрителей или 1 миллиард зрителей.

Вот картинка из числа зрителей с момента ее публикации: PSY OGS

Вот картинка из числа зрителей музыкальных клипов № 1 «Джастин Бивер-Бэби» и № 2 «Эминем - люби, как ты лжешь», которые были выпущены гораздо дольше Джастин Eminem

Моя первая попытка рассуждать о модели состояла в том, что она должна быть S-образной кривой, но она не соответствует песням № 1 и № 2, а также не соответствует тому, что нет ограничений на количество просмотров музыкального видео. может иметь, только медленный рост.

Итак, мой вопрос: какую модель я должен использовать, чтобы предсказать количество зрителей музыкального видео?

FredrikD
источник
21
+1 за умение вести разговор за обеденным столом из Каннам на статистику. Нам нужны такие люди, как ты!
С. Коласса - Восстановить Монику
4
Что я могу добавить к обсуждению, которое, я надеюсь, будет полезно для gui11aume или других людей, которые пишут уравнения, чтобы попытаться смоделировать это, так это то, что в примере KONY географическая кластеризация была важным аспектом распространения вируса. Тот факт, что PSY является корейским, а затем азиатским феноменом, является важной частью истории. Не уверен, как именно это будет моделироваться, но это может быть ключом.
Данные о просмотрах, комментариях, лайках и антипатиях к видео в ноябре 2012 года можно найти по адресу docs.google.com/spreadsheet/…
FredrikD

Ответы:

38

Ага, отличный вопрос !!

Я бы также наивно предложил S-образную логистическую кривую, но это явно не подходит. Насколько я знаю, постоянное увеличение является приблизительным, поскольку YouTube считает уникальные просмотры (по одному на IP-адрес), поэтому просмотров не может быть больше, чем компьютеров.

Мы могли бы использовать эпидемиологическую модель, где люди имеют различную восприимчивость. Чтобы было проще, мы могли бы разделить его на группу высокого риска (скажем, дети) и группу низкого риска (скажем, взрослые). Назовем пропорцию «зараженных» детей и y ( t).Икс(T) долю «зараженных» взрослых в момент времени t . Я назову X (неизвестное) число людей в группе высокого риска, а Y - (также неизвестное) количество людей в группе низкого риска.Y(T)TИксY

˙ y (t)=r2(x(t)+y(t))(Y-y(т)),

Икс˙(T)знак равнор1(Икс(T)+Y(T))(Икс-Икс(T))
Y˙(T)знак равнор2(Икс(T)+Y(T))(Y-Y(T)),

где . Я не знаю, как решить эту систему (возможно, @EpiGrad), но, глядя на ваши графики, мы могли бы сделать несколько упрощающих предположений. Поскольку рост не насыщает, мы можем предположить, что Y очень большой, а y маленький, илир1>р2YY

˙ y

Икс˙(T)знак равнор1Икс(T)(Икс-Икс(T))
Y˙(T)знак равнор2Икс(T),

который предсказывает линейный рост после того, как группа высокого риска полностью заражена. Обратите внимание, что с этой моделью нет оснований предполагать, что р1>р2Y-Y(T)р2

Эта система решает

y(t)=r2x(t

Икс(T)знак равноИксС1еИкср1T1+С1еИкср1T
Y(T)знак равнор2Икс(T)dT+С2знак равнор2р1журнал(1+С1еИкср1T)+С2,

где и С 2С1С2Икс(T)+Y(T)

0600,000,000Икс(T)Y(T)

˙ y (t)=r2,

Икс˙(T)знак равнор1Икс(T)(Икс-Икс(T))
Y˙(T)знак равнор2,

и решает

y(t)=r2t+C2.

Икс(T)знак равноИксС1еИкср1T1+С1еИкср1T
Y(T)знак равнор2T+С2,

Икс(0)знак равно1Tзнак равно0С1знак равно1Икс-11ИксИксС2знак равноY(0)С2знак равно0Икср1р2

Иксзнак равно600,000,000р1знак равно3,66710-10р2знак равно1,000,000

модель роста стиля Каннам

Обновление: Из комментариев я понял, что Youtube подсчитывает количество просмотров (по-тайному), а не уникальных IP-адресов, что имеет большое значение. Вернуться к доске для рисования.

Для простоты предположим, что зрители «заражены» видео. Они возвращаются, чтобы регулярно его смотреть, пока не избавятся от инфекции. Одной из самых простых моделей является SIR (Susfeptible-Infected-Resistant), который является следующим:

S˙(T)знак равно-αS(T)я(T)
я˙(T)знак равноαS(T)я(T)-βя(T)
р˙(T)знак равноβя(T)

αβИкс(T)Икс˙(T)знак равноКя(T)К - среднее число просмотров в день на зараженного человека.

В этой модели число просмотров начинает резко увеличиваться через некоторое время после начала заражения, что не относится к исходным данным, возможно, из-за того, что видео также распространяются не вирусным (или мемовым) способом. Я не эксперт в оценке параметров модели SIR. Просто играя с разными значениями, вот что я придумал (в R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Экстраполяция просмотров Youtube видео в стиле Gangnam

Модель, очевидно, не идеальна и может быть дополнена различными способами. Этот очень грубый набросок предсказывает миллиард просмотров где-то в марте 2013 года, давайте посмотрим ...

gui11aume
источник
5
(+1) В качестве первого подхода. Обратите внимание, что политика youtube для подсчета просмотров не совсем понятна, учитывая, что они не обнародовали свой алгоритм. Они только говорят: «Просмотр засчитывается всякий раз, когда кто-то смотрит видео на YouTube. Мы не уточняем это, чтобы избежать попыток искусственно увеличить количество просмотров» (см.) .
3
@FredrikD спасибо. Вы можете удалить «принять» в марте 2013 года, если я ошибся: D
gui11aume
2
Оценка параметров модели SIR, см. Rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD
1
Кажется, я потеряю этот! Они могут поразить миллион еще до 2013 года ...
gui11aume
2
engadget.com/2012/12/21/gangnam-style-one-billion-views Итак, мир не кончился, но сегодня было просмотрено 1 миллиард просмотров.
DanTheMan
5

Вероятно, наиболее распространенной моделью для прогнозирования внедрения нового продукта является диффузионная модель Басса , которая - подобно ответу @ gui11aume - моделирует взаимодействие между нынешними и потенциальными пользователями. Принятие нового продукта является довольно горячей темой в прогнозировании, поиск этого термина должен дать тонны информации (о которой, к сожалению, у меня нет времени подробно останавливаться на этом ...).

С. Коласса - Восстановить Монику
источник
да, это тоже модель-кандидат. Однако, похоже, что предполагается, что вы можете быть пользователем только один раз. Здесь вы просматриваете видео несколько раз, если вы заражены.
FredrikD
1
@FredrikD: точка взята. (Хотя мне лично не удавалось сидеть даже через одно «использование» этого «продукта» ...) Для этого должны быть обобщения Басса. (Бесстыдная заглушка :) Международный симпозиум по прогнозированию в следующем году пройдет в Сеуле, поэтому любой должен рассмотреть возможность представить там свою любимую модель прогнозирования Каннам! ;-)
С. Коласса - Восстановить Монику
4

Я бы посмотрел на кривую роста Гомперца .

Кривая Гомперца представляет собой трехпараметрическую (a, b, c) двойную экспоненциальную формулу со временем T как независимой переменной.

Код R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Известно, что формула роста Гомперца хороша для описания многих явлений жизненного цикла, когда сначала рост ускоряется, а затем сужается, что приводит к асимметричной сигмовидной кривой, производная которой круче слева, чем справа от пика. Например, общее количество статей в Википедии, которая также носит вирусный характер, следовало за кривой роста Гомперца (с определенными параметрами a, b, c) в течение многих лет с большой точностью.

Диаграмма кривых Гомперца: общий размер и его производная скорости роста

Редактировать: Если кривая Гомперца недостаточна для аппроксимации искомой фигуры, вы можете добавить параметры d& θ, как описано в Обобщенном обобщенном распределении Вейбулла Гомперца . Обратите внимание, что этот документ использует xвместо tнезависимого параметра времени. Интересно, что Википедия также изменила свое наилучшее приближение, добавив единственный 4-й параметр d, чтобы учесть отклонение прогноза от фактического значения после 2012 года . Модифицированная формула кривой Гомперца с 4 параметрами:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Функция Гомперца названа в честь Бенджамина Гомперца (1779-1865) , современника Гаусса (всего на 2 года младше Гаусса), первого математика, который описал это.

arielf
источник
Хорошая точка зрения! Однако, что бросает вызов модели, так это то, что она не является пределом (см. № 1 и № 2). То есть фактор а в модели также увеличивается со временем.
FredrikD
Я бы бросил вызов «Кажется, что нет предела». Может ли стиль Gangnam достичь 1B? 10B? 100B? Просмотры? в конце концов скорость роста приближается к нулю, и кривая плато. Это трудно понять, когда вы находитесь в фазе высокого роста, как мы сейчас с Gangnam, но просто подождите несколько лет, и вы выиграете Gompertz :) Хитрость в том, чтобы выяснить, правильно (а, б, в) параметры для этого конкретного случая.
Ариэльф
2
Вот ссылка для оценки параметров модели Гомперца, см. Weibull.com/RelGrowthWeb/…
FredrikD
3

Я думаю, что вам нужно отделить такие явления, как стиль Gangnam, который во многом обязан своим взглядам, чтобы быть мемом / вирусным, от Джастина Бибера и Эминема, которые сами по себе являются крупными художниками и которые также будут широко распространяться в традиционных условиях - JB или Eminem тоже продали бы много синглов, я не уверен, что PSY будет.

abaumann
источник
хорошая точка зрения. После прочтения и прослушивания интервью PSY и команды «OGS» (Oppa Gangnam Style) становится ясно, что они хорошо знают, какую кнопку нажать, чтобы создать вирусную вещь. Посредством некоторого анализа изображений, показанных на картинке выше, кажется, что количество просмотров является линейным примерно до 90 дней после запуска, затем на Гран-при Кореи появляется PSY, и количество просмотров за единицу времени увеличивается.
FredrikD
- и чем эти два класса отличаются от "классики" - песен, которые были, вероятно, хорошо известны, когда они были впервые загружены на YouTube (я думаю, Дэвид Боуи)?
abaumann
2

Хорошо, ребята, нам нужны некоторые стилизованные факты о распространении видео на YouTube, которые, как оказалось, предлагают шаблоны, весьма отличные от обычной литературы о распространении продуктов. Хорошее место для начала - Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn и Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: анализ крупнейшей в мире пользовательской видеосистемы контента, материалы 7-й ACM SIGCOMM конференция по интернет-измерениям, ISBN: 978-1-59593-908-1.

а также

X Cheng, C Dale, J Liu, 2008, Статистика и социальная сеть видео на YouTube, в материалах Международного семинара по качеству обслуживания (IWQoS), Энсхеде, Нидерланды, июнь.

ProfRoy47
источник
5
Добро пожаловать на сайт, @ ProfRoy47. Не могли бы вы более подробно остановиться на этом посте? Непонятно, что это на самом деле ответ на вопрос ОП / что он вполне стоит сам по себе. OTOH, это не подходит в качестве комментария, и я думаю, что он внес полезный вклад в эту тему. В наших часто задаваемых вопросах обсуждаются ответы на резюме, которые могут быть вам полезны.
gung - Восстановить Монику
1

Модель, очевидно, не идеальна и может быть дополнена различными способами. Этот очень грубый набросок предсказывает миллиард просмотров где-то в марте 2013 года, давайте посмотрим ...

Если посмотреть на замедление просмотров за последнюю неделю, дата 13 марта выглядит как приличная ставка. Большинство новых представлений, по-видимому, уже зараженные пользователи, которые возвращаются несколько раз в день.

Что касается дополнения вашей модели, то один метод, который исследователи используют для отслеживания распространения вируса, - это мониторинг мутаций его генома - когда и где он мутировал, может показать исследователям, насколько быстро вирус передается и распространяется (см. Отслеживание вируса Западного Нила в США) ,

В практическом смысле видео, такие как Gangnam Style и Party Rock Anthem (от группы LMFAO), с большей вероятностью «мутируют» в пародии, флеш-мобы, свадебные танцы, ремиксы и другие видеоответы, чем, скажем, Baby's Джастина Бибера или песни Эминема.

Исследователи могут анализировать количество видеоответов (и особенно пародий) в качестве прокси для мутаций. Измерение частоты и популярности этих мутаций на ранних этапах жизни видео может быть полезным при моделировании его просмотров на YouTube.

lucasng
источник
Добро пожаловать на сайт, @lucasng. Резюме предназначено для серьезных, фактических ответов на существенные вопросы (вы можете прочитать наш FAQ ), и я думаю, что ОП задал этот вопрос. Ваш ответ находится на границе здесь; Я думаю, что он должен основываться на своих представлениях о мутациях и т. Д., Но учтите, что мнения о достоинствах видео не совсем уместны.
gung - Восстановить Монику
Я думаю, что идея хорошая. @ Gung Правда, это не ответ на ФП, но второй ответ тоже нет.
gui11aume
@gung: (поиск в Google подсказывает, что) lucasng не высказывал свое мнение в части, которую вы отредактировали, а скорее цитировал название группы, которая исполняет песню!
кардинал
1
@ Cardinal, спасибо за внимание. Lucasng, извините за путаницу; Я вернул название группы.
gung - Восстановить Монику