Является ли нормальное, но сильно искаженное распределение гауссовским?

12

У меня такой вопрос: как вы думаете, как выглядит распределение времени, проведенного за день на YouTube?

Мой ответ таков: он, вероятно, нормально распределен и сильно перекошен. Я ожидаю, что есть один режим, в котором большинство пользователей тратят около некоторого среднего времени, а затем длинный правый хвост, поскольку некоторые пользователи являются подавляющими опытными пользователями.

Это честный ответ? Есть ли лучшее слово для этого распределения?

Cauder
источник
4
Поскольку некоторые ответы упоминают, но не подчеркивают, асимметрия неофициально названа для более длинного хвоста, если таковой имеется, так что перекос вправо, если более длинный правый хвост. Слева и справа, как используется в этом контексте, оба предполагают отображение в соответствии с соглашением, что величина отображается на оси хойризонта. Если это кажется слишком очевидным, рассмотрите изображения в науках о Земле и окружающей среде, в которых величина равна высоте или глубине и показана вертикально. Мелкий шрифт: некоторые показатели асимметрии могут быть нулевыми, даже если распределение искажено геометрически.
Ник Кокс
1
Общее время в день для всех пользователей? или раз в день на человека? Если последнее, то, конечно, есть умеренно большой всплеск в 0, и в этом случае вам, вероятно, понадобится распределение в стиле 'шип и плита' с дельтой Дирака в 0.
innisfree
6
«Нормальный» является синонимом «гауссовского», а гауссовские распределения, также называемые нормальными распределениями, не перекошены.
Майкл Харди
Я нахожу вопрос в заголовке сильно отличающимся от вопроса в основном тексте. Или, по крайней мере, название очень сбивает с толку. Никакое распределение не является «нормальным, но сильно искаженным», это противоречие. Кроме того, распределение Гаусса очень хорошо определено и совсем не похоже на распределение времени, проведенного за день на YouTube. Так что ответ на вопрос в названии большой нет. f(x)=12πσ2exp((xμ)22σ2)
Секст Эмпирик
2
Кроме того, вопрос в конце «есть ли лучшее слово для этого распределения?» очень расплывчато или широко. Кажется, что информация представляет собой только «один режим» и «длинный правый хвост» (часть «вероятно, нормально распределенная» не имеет смысла). Может быть много распределений, которые удовлетворяют этим условиям. Удивительно, что этот вопрос привлекает более десяти ответов и, по крайней мере, столько же предложений по альтернативному распространению, прежде чем мы действительно попытаемся прояснить вопрос (даже нет данных).
Секст Эмпирик

Ответы:

14

Доля в день, безусловно, не является отрицательной. Это исключает нормальное распределение, которое имеет вероятность вероятности по всей реальной оси - в частности, по отрицательной половине.

Распределение степенного закона часто используется для моделирования таких вещей, как распределение доходов, размеры городов и т. Д. Они неотрицательны и обычно сильно искажены. Это будет первое, что я попробую в моделировании времени, проведенного за просмотром YouTube. (Или мониторинг CrossValidated вопросов.)

Более подробную информацию о законах власти можно найти здесь или здесь , или в нашем теге .

Стефан Коласса
источник
16
Вы совершенно правы, что нормальные дистрибутивы имеют поддержку на реальной линии. И все же ... они не являются ужасной моделью для некоторых строго положительных качеств, таких как рост или вес взрослых, где среднее значение и дисперсия таковы, что отрицательные значения очень маловероятны в рамках модели.
Мэтт Краузе
2
@MattKrause На самом деле это отличный вопрос - есть ли такая же вероятность, что я буду «на 10 см выше или ниже средней высоты» или «на 10 процентов выше или ниже средней высоты»? Только первый случай может гарантировать нормальное распределение.
Томаш Кафка
1
@MattKrause: я полностью согласен, в общем смысле. Тем не менее, настоящий вопрос касается доли ежедневного времени, проведенного за просмотром YouTube. У нас нет никаких данных, но я был бы очень удивлен, если бы распределение было хотя бы отдаленно симметричным.
Стефан Коласса
43

Нормальное распределение не сильно искажено. Это противоречие. Нормально распределенные переменные имеют перекос = 0.

Питер Флом - Восстановить Монику
источник
1
Как лучше описать распределение? Есть ли слово для этого типа распределения, где он сосредоточен вокруг моды, а затем имеет длинный хвост?
Cauder
13
Унимодал и скошен как можно ближе ...
jbowman
9
Кроме того, просто невероятно, что люди отдают свое время, чтобы помочь другим людям стать лучше в этом деле. Я знаю, это само собой разумеется, но это так здорово, что вы оба делаете!
Каудер
6
Да, но стоит уточнить, что это утверждение относится к нормально распределенному населению. Образец, взятый из этой популяции, может быть очень искажен.
gung - Восстановить Монику
Когда значение асимметрии мало («маленькое» определяется людьми, имеющими дело с рассматриваемой статистикой), вы все равно можете относиться к населению как к нормальному, хотя в результате и с небольшой ошибкой.
Карл Виттофт
19

Если у него длинный правый хвост, то он перекошен.

введите описание изображения здесь

Это не может быть нормальным дистрибутивом, поскольку skew! = 0, возможно, это унимодальное асимметричное нормальное распределение:

https://en.wikipedia.org/wiki/Skew_normal_distribution

вот
источник
13

Это может быть лог-нормальное распределение. Как уже упоминалось здесь :

Время, затрачиваемое пользователями на онлайновые статьи (шутки, новости и т. Д.), Следует нормальному распределению журналов.

Ссылка дана: Инь, Пэйфэн; Ло, Пинг; Ли, Ван-Чиен; Ван, Мин (2013). Молчание также является доказательством: интерпретация времени ожидания для рекомендаций с психологической точки зрения. ACM Международная конференция по KDD.

Граф Иблис
источник
7

"Есть ли лучшее слово для этого распределения?"

Здесь стоит провести различие между использованием слов для описания свойств дистрибутива и попыткой найти «имя» для дистрибутива, чтобы вы могли идентифицировать его как (приблизительно) экземпляр определенного стандартного дистрибутива: тот, для которого формула или статистические таблицы могут существовать для его функции распределения, и для которой вы можете оценить его параметры. В этом последнем случае вы, скорее всего, используете именованный дистрибутив, например «нормальный / гауссовский» (оба термина обычно синонимичны), в качестве модели, которая фиксирует некоторые ключевые характеристики ваших данных, вместо того, чтобы утверждать, что ваши данные взяты из точно следует , что теоретическое распределение. Чтобы немного исказить Джорджа Бокса,все модели «неправильны», но некоторые полезны. Если вы думаете о подходе к моделированию, стоит подумать, какие функции вы хотите включить, и насколько сложной или экономичной вы хотите, чтобы ваша модель была.

Будучи положительно перекос пример описания свойства , что распределение имеет, но близко не подходит к заданию , которое не совсем готовое распределение является «» соответствующая модель. Это исключает некоторых кандидатов, например, распределение Гаусса (то есть нормальное) имеет нулевую асимметрию, поэтому не подходит для моделирования ваших данных, если эта асимметрия является важной особенностью. Могут быть и другие свойства данных, которые также важны для вас, например, что они унимодальные (имеют только один пик) или ограничены от 0 до 24 часов (или от 0 до 1, если вы записываете их в виде дроби дня) или что масса вероятности сконцентрирована на нуле (поскольку есть люди, которые вообще не смотрят YouTube в данный день).куртоз . И стоит иметь в виду, что даже если ваш дистрибутив имел форму «горба» или «колокольчика» и имел нулевой или почти нулевой перекос, из этого автоматически не следует, что нормальное распределение является «правильным» для него! С другой стороны, даже если популяция, из которой взяты ваши данные, действительно точно следовала определенному распределению из-за ошибки выборкиВаш набор данных может не совсем походить на него. Небольшие наборы данных могут быть «шумными», и может быть неясно, являются ли определенные особенности, которые вы видите, например, дополнительные небольшие горбы или асимметричные хвосты, свойствами основной популяции, из которой были взяты данные (и, возможно, поэтому их следует включать в вашей модели) или являются ли они просто артефактами из вашего конкретного образца (и для целей моделирования следует игнорировать). Если у вас небольшой набор данных и перекос близок к нулю, то вполне вероятно, что базовое распределение фактически симметрично. Чем больше ваш набор данных и чем больше асимметрия, тем менее правдоподобно это становится, но в то время как вы могли бы выполнить тест на значимость, чтобы увидеть, насколько убедительными являются доказательства того, что ваши данные обеспечивают асимметрию в популяции, из которой они были получены, это может не указывать, подходит ли нормальное (или другое нулевое) распределение в качестве модели ...

Какие свойства данных действительно имеют значение для целей, которые вы намереваетесь смоделировать? Обратите внимание, что, если перекос достаточно мал, и вы не очень заботитесь о нем, даже если основная популяция действительно искажена , тогда вы все равно можете найти нормальное распределение полезной моделью для аппроксимации этого истинного распределения времени просмотра. Но вы должны проверить, что это не в конечном итоге делает глупые прогнозы. Поскольку нормальное распределение не имеет ни максимального, ни минимально возможного значения, то, хотя чрезвычайно высокие или низкие значения становятся все менее вероятными, вы всегда обнаружите, что ваша модель предсказывает, что есть некоторыевероятность просмотра отрицательного количества часов в день или более 24 часов. Это становится более проблематичным для вас, если прогнозируемая вероятность таких невозможных событий становится высокой. Симметричное распределение, такое как нормальное, будет предсказывать, что столько людей будут наблюдать в течение отрезков времени более чем, например, на 50% выше среднего, а также менее чем на 50% ниже среднего. Если время просмотра очень искажено, то этот вид предсказания также может быть настолько неправдоподобным, что может показаться глупым и может привести к вводящим в заблуждение результатам, если вы берете результаты своей модели и используете их в качестве входных данных для какой-то другой цели (например Вы проводите симуляцию времени просмотра, чтобы рассчитать оптимальное планирование размещения рекламы). Если асимметрия настолько примечательна, что вы хотите запечатлеть ее как часть вашей модели, тоКосое нормальное распределение может быть более подходящим. Если вы хотите уловить как асимметрию, так и эксцесс, рассмотрите перекос т . Если вы хотите включить физически возможные верхнюю и нижнюю границы, рассмотрите возможность использования усеченных версий этих дистрибутивов. Существует много других вероятностных распределений, которые могут быть перекошены и унимодальны (для выбора подходящих параметров), таких как F или гамма- распределения, и снова вы можете их усечь, чтобы они не предсказывали невероятно высокое время просмотра. Бета - распределениеможет быть хорошим выбором, если вы моделируете часть дня, проведенного за просмотром, так как это всегда ограничено от 0 до 1 без необходимости дальнейшего усечения. Если вы хотите включить концентрацию вероятности точно в ноль из-за не наблюдателей, то подумайте о построении в модели препятствий .

Но в тот момент, когда вы пытаетесь добавить каждую функцию, которую вы можете идентифицировать по вашим данным, и создать еще более изощренную модель, возможно, вам следует спросить себя, почему вы это делаете? Будет ли преимущество для более простой модели, например, проще работать с математически или иметь меньше параметров для оценки? Если вы обеспокоены тем, что из-за такого упрощения вам не удастся охватить все интересующие вас свойства, вполне возможно, что ни один из распространяемых дистрибутивов не делает то, что вам нужно. Однако мы не ограничены работой с именованными дистрибутивами, математические свойства которых были объяснены ранее. Вместо этого рассмотрите возможность использования ваших данных для построения эмпирической функции распределения., Это отразит все поведение, которое присутствовало в ваших данных, но вы больше не можете дать ему имя, такое как «нормальный» или «гамма», а также не можете применять математические свойства, которые относятся только к определенному распределению. Например, правило «95% данных лежит в пределах 1,96 стандартного отклонения от среднего» относится к нормально распределенным данным и может не применяться к вашему распределению; хотя обратите внимание, что некоторые правила применяются ко всем распределениям, например , неравенство Чебышева гарантирует, по крайней мере,75% ваших данных должны находиться в пределах двух стандартных отклонений от среднего, независимо от перекоса. К сожалению, эмпирическое распределение также унаследует все те свойства вашего набора данных, которые возникают исключительно из-за ошибки выборки, а не только те, которыми обладает базовая совокупность, поэтому вы можете обнаружить, что гистограмма вашего эмпирического распределения имеет некоторые недостатки и недостатки, которые сама популяция не делает. , Возможно, вы захотите изучить сглаженные эмпирические функции распределения или, что еще лучше, увеличить размер выборки.

В итоге: хотя нормальное распределение имеет нулевой перекос, тот факт, что ваши данные искажены, не исключает нормальное распределение в качестве полезной модели, хотя и предполагает, что более подходящим может быть другое распределение. При выборе модели вы должны учитывать другие свойства данных, кроме перекоса, и учитывать также цели, для которых вы собираетесь использовать модель. Можно с уверенностью сказать, что ваша истинная популяция времени просмотра не совсем соответствует какому-то известному, именованному дистрибутиву, но это не означает, что такое распределение обречено быть бесполезным в качестве модели. Однако для некоторых целей вы можете предпочесть просто использовать сам эмпирический дистрибутив, а не пытаться подогнать к нему стандартный дистрибутив.

тарпон
источник
6

Гамма-распределение может быть хорошим кандидатом для описания такого распределения по неотрицательным, искаженным данным. Посмотрите на зеленую линию на изображении здесь: https://en.m.wikipedia.org/wiki/Gamma_distribution

Морис
источник
4

«Нормальный» и «гауссовский» означают одно и то же. Как объясняют другие ответы, распределение, о котором вы говорите, не является нормальным / гауссовым, потому что это распределение присваивает вероятности каждому значению на реальной линии, тогда как ваше распределение существует только между и  .024

Дэвид Ричерби
источник
3

В данном случае, поскольку время, проведенное в течение дня, ограничено от до (если его количественно определить как часть дня), неограниченные выше распределения (например, Pareto, skew-normal, Gamma, log-normal) выиграли ' не работает, но Бета будет.01

JG
источник
2

Как насчет модели с препятствиями?

Модель препятствия состоит из двух частей. Первый - эксперимент Бернулли, который определяет, используете ли вы YouTube вообще. Если вы этого не сделаете, то ваше время использования, очевидно, ноль, и вы сделали. Если вы это сделаете, вы «преодолеете это препятствие», тогда время использования зависит от другого строго положительного распределения.

Тесно связанной концепцией являются модели с нулевым уровнем инфляции. Они предназначены для того, чтобы иметь дело с ситуацией, когда мы наблюдаем группу нулей, но не можем различить всегда нули и иногда нули. Например, рассмотрим количество сигарет, которые человек курит каждый день. Для некурящих это число всегда равно нулю, но некоторые курильщики могут не курить в определенный день (из сигарет? В дальний рейс?). В отличие от модели препятствий, распределение «курильщиков» здесь должно включать ноль, но эти показатели «завышены» и вкладом некурящих.

Мэтт Краузе
источник
0

Если распределение действительно является «подмножеством» нормального распределения, вам следует рассмотреть усеченную модель. В этом контексте широко используется семейство моделей TOBIT.
Они по существу предлагают pdf с (положительной) вероятностной массой в 0 и затем «разрезом части нормального распределения» для положительных значений.
Я воздержусь от ввода формулы здесь и рекомендую обратиться к статье в Википедии: https://en.wikipedia.org/wiki/Tobit_model

Лукас
источник
-4

Нормальные распределения по определению не перекошены, поэтому вы не можете иметь обе вещи. Если распределение смещено влево, то оно не может быть гауссовым. Вам придется выбрать другой! Самая близкая вещь к вашему запросу, о которой я могу думать, - это:

https://en.wikipedia.org/wiki/Skew_normal_distribution

Дэвид
источник
5
Я согласен, за исключением того, что ОП путает левую и правую асимметрию, как уже указывалось. И @behold уже предложили в ответ асимметрию. Итак, я не вижу, что это добавляет к существующим ответам.
Ник Кокс
Он суммирует многих из них в прямом ответе из трех строк
Дэвид
4
Извините, но это все еще повторение.
Ник Кокс
ОК ... кого это волнует?
Дэвид
4
Ну, я делаю; и кто бы ни добавил +1 к моим комментариям (явно не я), и кто бы ни отрицал Ваш ответ (не я, как это происходит). Эта тема уже длинная и повторяющаяся; еще более избыточные комментарии не улучшают это для будущих читателей.
Ник Кокс