Музыкальный клип PSY "Gangnam style" популярен, и спустя немногим более 2 месяцев его смотрят около 540 миллионов человек. Я узнал об этом от моих детей в возрасте до обеда на прошлой неделе, и вскоре дискуссия пошла в направлении того, можно ли сделать какое-то предсказание, сколько зрителей будет через 10-12 дней и когда (/ если) песня пройдет 800 миллионов зрителей или 1 миллиард зрителей.
Вот картинка из числа зрителей с момента ее публикации:
Вот картинка из числа зрителей музыкальных клипов № 1 «Джастин Бивер-Бэби» и № 2 «Эминем - люби, как ты лжешь», которые были выпущены гораздо дольше
Моя первая попытка рассуждать о модели состояла в том, что она должна быть S-образной кривой, но она не соответствует песням № 1 и № 2, а также не соответствует тому, что нет ограничений на количество просмотров музыкального видео. может иметь, только медленный рост.
Итак, мой вопрос: какую модель я должен использовать, чтобы предсказать количество зрителей музыкального видео?
Ответы:
Ага, отличный вопрос !!
Я бы также наивно предложил S-образную логистическую кривую, но это явно не подходит. Насколько я знаю, постоянное увеличение является приблизительным, поскольку YouTube считает уникальные просмотры (по одному на IP-адрес), поэтому просмотров не может быть больше, чем компьютеров.
Мы могли бы использовать эпидемиологическую модель, где люди имеют различную восприимчивость. Чтобы было проще, мы могли бы разделить его на группу высокого риска (скажем, дети) и группу низкого риска (скажем, взрослые). Назовем пропорцию «зараженных» детей и y ( t).х ( т ) долю «зараженных» взрослых в момент времени t . Я назову X (неизвестное) число людей в группе высокого риска, а Y - (также неизвестное) количество людей в группе низкого риска.Y( т ) T Икс Y
˙ y (t)=r2(x(t)+y(t))(Y-y(т)),
где . Я не знаю, как решить эту систему (возможно, @EpiGrad), но, глядя на ваши графики, мы могли бы сделать несколько упрощающих предположений. Поскольку рост не насыщает, мы можем предположить, что Y очень большой, а y маленький, илир1> г2 Y Y
˙ y
который предсказывает линейный рост после того, как группа высокого риска полностью заражена. Обратите внимание, что с этой моделью нет оснований предполагать, чтор1> г2 Y- у( т ) р2
Эта система решает
y(t)=r2∫x(t
где и С 2С1 С2 х ( т ) + у( т )
˙ y (t)=r2,
и решает
y(t)=r2t+C2.
Обновление: Из комментариев я понял, что Youtube подсчитывает количество просмотров (по-тайному), а не уникальных IP-адресов, что имеет большое значение. Вернуться к доске для рисования.
Для простоты предположим, что зрители «заражены» видео. Они возвращаются, чтобы регулярно его смотреть, пока не избавятся от инфекции. Одной из самых простых моделей является SIR (Susfeptible-Infected-Resistant), который является следующим:
В этой модели число просмотров начинает резко увеличиваться через некоторое время после начала заражения, что не относится к исходным данным, возможно, из-за того, что видео также распространяются не вирусным (или мемовым) способом. Я не эксперт в оценке параметров модели SIR. Просто играя с разными значениями, вот что я придумал (в R).
Модель, очевидно, не идеальна и может быть дополнена различными способами. Этот очень грубый набросок предсказывает миллиард просмотров где-то в марте 2013 года, давайте посмотрим ...
источник
Вероятно, наиболее распространенной моделью для прогнозирования внедрения нового продукта является диффузионная модель Басса , которая - подобно ответу @ gui11aume - моделирует взаимодействие между нынешними и потенциальными пользователями. Принятие нового продукта является довольно горячей темой в прогнозировании, поиск этого термина должен дать тонны информации (о которой, к сожалению, у меня нет времени подробно останавливаться на этом ...).
источник
Я бы посмотрел на кривую роста Гомперца .
Кривая Гомперца представляет собой трехпараметрическую (a, b, c) двойную экспоненциальную формулу со временем T как независимой переменной.
Код R:
Известно, что формула роста Гомперца хороша для описания многих явлений жизненного цикла, когда сначала рост ускоряется, а затем сужается, что приводит к асимметричной сигмовидной кривой, производная которой круче слева, чем справа от пика. Например, общее количество статей в Википедии, которая также носит вирусный характер, следовало за кривой роста Гомперца (с определенными параметрами a, b, c) в течение многих лет с большой точностью.
Редактировать: Если кривая Гомперца недостаточна для аппроксимации искомой фигуры, вы можете добавить параметры
d
& θ, как описано в Обобщенном обобщенном распределении Вейбулла Гомперца . Обратите внимание, что этот документ используетx
вместоt
независимого параметра времени. Интересно, что Википедия также изменила свое наилучшее приближение, добавив единственный 4-й параметрd
, чтобы учесть отклонение прогноза от фактического значения после 2012 года . Модифицированная формула кривой Гомперца с 4 параметрами:Функция Гомперца названа в честь Бенджамина Гомперца (1779-1865) , современника Гаусса (всего на 2 года младше Гаусса), первого математика, который описал это.
источник
Я думаю, что вам нужно отделить такие явления, как стиль Gangnam, который во многом обязан своим взглядам, чтобы быть мемом / вирусным, от Джастина Бибера и Эминема, которые сами по себе являются крупными художниками и которые также будут широко распространяться в традиционных условиях - JB или Eminem тоже продали бы много синглов, я не уверен, что PSY будет.
источник
Хорошо, ребята, нам нужны некоторые стилизованные факты о распространении видео на YouTube, которые, как оказалось, предлагают шаблоны, весьма отличные от обычной литературы о распространении продуктов. Хорошее место для начала - Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn и Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: анализ крупнейшей в мире пользовательской видеосистемы контента, материалы 7-й ACM SIGCOMM конференция по интернет-измерениям, ISBN: 978-1-59593-908-1.
а также
X Cheng, C Dale, J Liu, 2008, Статистика и социальная сеть видео на YouTube, в материалах Международного семинара по качеству обслуживания (IWQoS), Энсхеде, Нидерланды, июнь.
источник
Если посмотреть на замедление просмотров за последнюю неделю, дата 13 марта выглядит как приличная ставка. Большинство новых представлений, по-видимому, уже зараженные пользователи, которые возвращаются несколько раз в день.
Что касается дополнения вашей модели, то один метод, который исследователи используют для отслеживания распространения вируса, - это мониторинг мутаций его генома - когда и где он мутировал, может показать исследователям, насколько быстро вирус передается и распространяется (см. Отслеживание вируса Западного Нила в США) ,
В практическом смысле видео, такие как Gangnam Style и Party Rock Anthem (от группы LMFAO), с большей вероятностью «мутируют» в пародии, флеш-мобы, свадебные танцы, ремиксы и другие видеоответы, чем, скажем, Baby's Джастина Бибера или песни Эминема.
Исследователи могут анализировать количество видеоответов (и особенно пародий) в качестве прокси для мутаций. Измерение частоты и популярности этих мутаций на ранних этапах жизни видео может быть полезным при моделировании его просмотров на YouTube.
источник