У меня такой вопрос: как вы думаете, как выглядит распределение времени, проведенного за день на YouTube?
Мой ответ таков: он, вероятно, нормально распределен и сильно перекошен. Я ожидаю, что есть один режим, в котором большинство пользователей тратят около некоторого среднего времени, а затем длинный правый хвост, поскольку некоторые пользователи являются подавляющими опытными пользователями.
Это честный ответ? Есть ли лучшее слово для этого распределения?
Ответы:
Доля в день, безусловно, не является отрицательной. Это исключает нормальное распределение, которое имеет вероятность вероятности по всей реальной оси - в частности, по отрицательной половине.
Распределение степенного закона часто используется для моделирования таких вещей, как распределение доходов, размеры городов и т. Д. Они неотрицательны и обычно сильно искажены. Это будет первое, что я попробую в моделировании времени, проведенного за просмотром YouTube. (Или мониторинг CrossValidated вопросов.)
Более подробную информацию о законах власти можно найти здесь или здесь , или в нашем теге власти .
источник
Нормальное распределение не сильно искажено. Это противоречие. Нормально распределенные переменные имеют перекос = 0.
источник
Если у него длинный правый хвост, то он перекошен.
Это не может быть нормальным дистрибутивом, поскольку skew! = 0, возможно, это унимодальное асимметричное нормальное распределение:
https://en.wikipedia.org/wiki/Skew_normal_distribution
источник
Это может быть лог-нормальное распределение. Как уже упоминалось здесь :
Ссылка дана: Инь, Пэйфэн; Ло, Пинг; Ли, Ван-Чиен; Ван, Мин (2013). Молчание также является доказательством: интерпретация времени ожидания для рекомендаций с психологической точки зрения. ACM Международная конференция по KDD.
источник
"Есть ли лучшее слово для этого распределения?"
Здесь стоит провести различие между использованием слов для описания свойств дистрибутива и попыткой найти «имя» для дистрибутива, чтобы вы могли идентифицировать его как (приблизительно) экземпляр определенного стандартного дистрибутива: тот, для которого формула или статистические таблицы могут существовать для его функции распределения, и для которой вы можете оценить его параметры. В этом последнем случае вы, скорее всего, используете именованный дистрибутив, например «нормальный / гауссовский» (оба термина обычно синонимичны), в качестве модели, которая фиксирует некоторые ключевые характеристики ваших данных, вместо того, чтобы утверждать, что ваши данные взяты из точно следует , что теоретическое распределение. Чтобы немного исказить Джорджа Бокса,все модели «неправильны», но некоторые полезны. Если вы думаете о подходе к моделированию, стоит подумать, какие функции вы хотите включить, и насколько сложной или экономичной вы хотите, чтобы ваша модель была.
Будучи положительно перекос пример описания свойства , что распределение имеет, но близко не подходит к заданию , которое не совсем готовое распределение является «» соответствующая модель. Это исключает некоторых кандидатов, например, распределение Гаусса (то есть нормальное) имеет нулевую асимметрию, поэтому не подходит для моделирования ваших данных, если эта асимметрия является важной особенностью. Могут быть и другие свойства данных, которые также важны для вас, например, что они унимодальные (имеют только один пик) или ограничены от 0 до 24 часов (или от 0 до 1, если вы записываете их в виде дроби дня) или что масса вероятности сконцентрирована на нуле (поскольку есть люди, которые вообще не смотрят YouTube в данный день).куртоз . И стоит иметь в виду, что даже если ваш дистрибутив имел форму «горба» или «колокольчика» и имел нулевой или почти нулевой перекос, из этого автоматически не следует, что нормальное распределение является «правильным» для него! С другой стороны, даже если популяция, из которой взяты ваши данные, действительно точно следовала определенному распределению из-за ошибки выборкиВаш набор данных может не совсем походить на него. Небольшие наборы данных могут быть «шумными», и может быть неясно, являются ли определенные особенности, которые вы видите, например, дополнительные небольшие горбы или асимметричные хвосты, свойствами основной популяции, из которой были взяты данные (и, возможно, поэтому их следует включать в вашей модели) или являются ли они просто артефактами из вашего конкретного образца (и для целей моделирования следует игнорировать). Если у вас небольшой набор данных и перекос близок к нулю, то вполне вероятно, что базовое распределение фактически симметрично. Чем больше ваш набор данных и чем больше асимметрия, тем менее правдоподобно это становится, но в то время как вы могли бы выполнить тест на значимость, чтобы увидеть, насколько убедительными являются доказательства того, что ваши данные обеспечивают асимметрию в популяции, из которой они были получены, это может не указывать, подходит ли нормальное (или другое нулевое) распределение в качестве модели ...
Какие свойства данных действительно имеют значение для целей, которые вы намереваетесь смоделировать? Обратите внимание, что, если перекос достаточно мал, и вы не очень заботитесь о нем, даже если основная популяция действительно искажена , тогда вы все равно можете найти нормальное распределение полезной моделью для аппроксимации этого истинного распределения времени просмотра. Но вы должны проверить, что это не в конечном итоге делает глупые прогнозы. Поскольку нормальное распределение не имеет ни максимального, ни минимально возможного значения, то, хотя чрезвычайно высокие или низкие значения становятся все менее вероятными, вы всегда обнаружите, что ваша модель предсказывает, что есть некоторыевероятность просмотра отрицательного количества часов в день или более 24 часов. Это становится более проблематичным для вас, если прогнозируемая вероятность таких невозможных событий становится высокой. Симметричное распределение, такое как нормальное, будет предсказывать, что столько людей будут наблюдать в течение отрезков времени более чем, например, на 50% выше среднего, а также менее чем на 50% ниже среднего. Если время просмотра очень искажено, то этот вид предсказания также может быть настолько неправдоподобным, что может показаться глупым и может привести к вводящим в заблуждение результатам, если вы берете результаты своей модели и используете их в качестве входных данных для какой-то другой цели (например Вы проводите симуляцию времени просмотра, чтобы рассчитать оптимальное планирование размещения рекламы). Если асимметрия настолько примечательна, что вы хотите запечатлеть ее как часть вашей модели, тоКосое нормальное распределение может быть более подходящим. Если вы хотите уловить как асимметрию, так и эксцесс, рассмотрите перекос т . Если вы хотите включить физически возможные верхнюю и нижнюю границы, рассмотрите возможность использования усеченных версий этих дистрибутивов. Существует много других вероятностных распределений, которые могут быть перекошены и унимодальны (для выбора подходящих параметров), таких как F или гамма- распределения, и снова вы можете их усечь, чтобы они не предсказывали невероятно высокое время просмотра. Бета - распределениеможет быть хорошим выбором, если вы моделируете часть дня, проведенного за просмотром, так как это всегда ограничено от 0 до 1 без необходимости дальнейшего усечения. Если вы хотите включить концентрацию вероятности точно в ноль из-за не наблюдателей, то подумайте о построении в модели препятствий .
Но в тот момент, когда вы пытаетесь добавить каждую функцию, которую вы можете идентифицировать по вашим данным, и создать еще более изощренную модель, возможно, вам следует спросить себя, почему вы это делаете? Будет ли преимущество для более простой модели, например, проще работать с математически или иметь меньше параметров для оценки? Если вы обеспокоены тем, что из-за такого упрощения вам не удастся охватить все интересующие вас свойства, вполне возможно, что ни один из распространяемых дистрибутивов не делает то, что вам нужно. Однако мы не ограничены работой с именованными дистрибутивами, математические свойства которых были объяснены ранее. Вместо этого рассмотрите возможность использования ваших данных для построения эмпирической функции распределения., Это отразит все поведение, которое присутствовало в ваших данных, но вы больше не можете дать ему имя, такое как «нормальный» или «гамма», а также не можете применять математические свойства, которые относятся только к определенному распределению. Например, правило «95% данных лежит в пределах 1,96 стандартного отклонения от среднего» относится к нормально распределенным данным и может не применяться к вашему распределению; хотя обратите внимание, что некоторые правила применяются ко всем распределениям, например , неравенство Чебышева гарантирует, по крайней мере,75% ваших данных должны находиться в пределах двух стандартных отклонений от среднего, независимо от перекоса. К сожалению, эмпирическое распределение также унаследует все те свойства вашего набора данных, которые возникают исключительно из-за ошибки выборки, а не только те, которыми обладает базовая совокупность, поэтому вы можете обнаружить, что гистограмма вашего эмпирического распределения имеет некоторые недостатки и недостатки, которые сама популяция не делает. , Возможно, вы захотите изучить сглаженные эмпирические функции распределения или, что еще лучше, увеличить размер выборки.
В итоге: хотя нормальное распределение имеет нулевой перекос, тот факт, что ваши данные искажены, не исключает нормальное распределение в качестве полезной модели, хотя и предполагает, что более подходящим может быть другое распределение. При выборе модели вы должны учитывать другие свойства данных, кроме перекоса, и учитывать также цели, для которых вы собираетесь использовать модель. Можно с уверенностью сказать, что ваша истинная популяция времени просмотра не совсем соответствует какому-то известному, именованному дистрибутиву, но это не означает, что такое распределение обречено быть бесполезным в качестве модели. Однако для некоторых целей вы можете предпочесть просто использовать сам эмпирический дистрибутив, а не пытаться подогнать к нему стандартный дистрибутив.
источник
Гамма-распределение может быть хорошим кандидатом для описания такого распределения по неотрицательным, искаженным данным. Посмотрите на зеленую линию на изображении здесь: https://en.m.wikipedia.org/wiki/Gamma_distribution
источник
«Нормальный» и «гауссовский» означают одно и то же. Как объясняют другие ответы, распределение, о котором вы говорите, не является нормальным / гауссовым, потому что это распределение присваивает вероятности каждому значению на реальной линии, тогда как ваше распределение существует только между и .0 24
источник
В данном случае, поскольку время, проведенное в течение дня, ограничено от до (если его количественно определить как часть дня), неограниченные выше распределения (например, Pareto, skew-normal, Gamma, log-normal) выиграли ' не работает, но Бета будет.0 1
источник
Как насчет модели с препятствиями?
Модель препятствия состоит из двух частей. Первый - эксперимент Бернулли, который определяет, используете ли вы YouTube вообще. Если вы этого не сделаете, то ваше время использования, очевидно, ноль, и вы сделали. Если вы это сделаете, вы «преодолеете это препятствие», тогда время использования зависит от другого строго положительного распределения.
Тесно связанной концепцией являются модели с нулевым уровнем инфляции. Они предназначены для того, чтобы иметь дело с ситуацией, когда мы наблюдаем группу нулей, но не можем различить всегда нули и иногда нули. Например, рассмотрим количество сигарет, которые человек курит каждый день. Для некурящих это число всегда равно нулю, но некоторые курильщики могут не курить в определенный день (из сигарет? В дальний рейс?). В отличие от модели препятствий, распределение «курильщиков» здесь должно включать ноль, но эти показатели «завышены» и вкладом некурящих.
источник
Если распределение действительно является «подмножеством» нормального распределения, вам следует рассмотреть усеченную модель. В этом контексте широко используется семейство моделей TOBIT.
Они по существу предлагают pdf с (положительной) вероятностной массой в 0 и затем «разрезом части нормального распределения» для положительных значений.
Я воздержусь от ввода формулы здесь и рекомендую обратиться к статье в Википедии: https://en.wikipedia.org/wiki/Tobit_model
источник
Нормальные распределения по определению не перекошены, поэтому вы не можете иметь обе вещи. Если распределение смещено влево, то оно не может быть гауссовым. Вам придется выбрать другой! Самая близкая вещь к вашему запросу, о которой я могу думать, - это:
https://en.wikipedia.org/wiki/Skew_normal_distribution
источник