Я пытался узнать, какие дистрибутивы использовать в GLM, и я немного озадачен, когда использовать нормальный дистрибутив. В одной части моего учебника говорится, что нормальное распределение может быть полезным для моделирования результатов экзаменов. В следующей части спрашивается, какое распределение будет подходящим для моделирования страхового случая. На этот раз он сказал, что соответствующие распределения будут гамма или инверсным гауссовым, потому что они непрерывны с только положительными значениями. Ну, я считаю, что результаты экзаменов также будут непрерывными и будут иметь только положительные значения, так почему бы нам использовать там нормальное распределение? Разве нормальное распределение не допускает отрицательных значений?
13
Ответы:
Высота, например, часто моделируется как нормальная. Может быть, рост мужчины - что-то вроде 5 футов 10 со стандартным отклонением 2 дюйма. Мы знаем, что отрицательная высота нефизична, но в этой модели вероятность наблюдения отрицательной высоты практически равна нулю. Мы все равно используем модель, потому что это достаточно хорошее приближение.
Все модели не правы. Вопрос заключается в том, «может ли эта модель все еще быть полезной», и в тех случаях, когда мы моделируем такие вещи, как рост и результаты тестов, моделирование явления как нормального полезно, несмотря на то, что оно технически допускает нефизические вещи.
источник
Верный. Он также не имеет верхней границы.
Несмотря на предыдущие заявления, тем не менее, иногда это так. Если у вас есть много компонентов для теста, не слишком тесно связанных (например, так что вы по сути не один и тот же вопрос десятки раз, и при этом каждая часть не требует правильного ответа на предыдущую часть), и не очень простая или очень сложная ( так что большинство меток находится где-то около середины), то метки часто могут быть достаточно хорошо аппроксимированы нормальным распределением; часто достаточно хорошо, чтобы типичные анализы не вызывали беспокойства.
Мы точно знаем, что они ненормальные , но это не является проблемой автоматически, если поведение используемых нами процедур достаточно близко к тому, что должно быть для наших целей (например, стандартные ошибки, доверительные интервалы, уровни значимости). и власть - в зависимости от того, что нужно - делать то, что мы ожидаем от них)
Да, но более того - они имеют тенденцию к сильному перекосу, и изменчивость имеет тенденцию увеличиваться, когда среднее значение увеличивается.
Вот пример распределения размера претензий для заявок на транспортные средства:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Рис. 5 от Garrido, Genest & Schulz (2016) "Обобщенные линейные модели для зависимой частоты и серьезности страховых требований", Страхование: математика и экономика, том 70, сентябрь, p205-215. Https : //www.sciencedirect. ru / science / article / pii / S0167668715303358 )
Это показывает типичный правосторонний и тяжелый правый хвост. Однако мы должны быть очень осторожны, потому что это предельное распределение, и мы пишем модель для условного распределения, которая обычно будет гораздо менее асимметричной (предельное распределение мы рассмотрим, если просто сделать гистограмму размеров утверждений, представляющую собой смесь из этих условных распределений). Тем не менее, как правило, это тот случай, когда мы смотрим на размер претензии в подгруппах предикторов (возможно, по категориям непрерывных переменных), что распределение по-прежнему сильно наклонено вправо и довольно тяжелое с правой стороны, предполагая, что нечто вроде гамма-модели * вероятно, будет гораздо более подходящим, чем модель Гаусса.
* может быть любое количество других распределений, которые были бы более подходящими, чем гауссовский - обратный гауссовский - другой выбор - хотя и менее распространенный; Логнормальные модели или модели Вейбулла, хотя они и не являются GLM в их нынешнем виде, также могут быть весьма полезными.
[Редко бывает, что любое из этих распределений является почти идеальным описанием; они являются неточными приближениями, но во многих случаях достаточно хороши, так что анализ полезен и имеет свойства, близкие к желаемым.]
Потому что (в условиях, которые я упоминал ранее - множество компонентов, не слишком зависимых, не жестких или простых), распределение имеет тенденцию быть достаточно близким к симметричному, унимодальному и не с тяжелыми хвостами.
источник
Экзаменационные баллы могут быть лучше смоделированы с помощью биномиального распределения. В очень упрощенном случае у вас может быть 100 истинных / ложных вопросов, каждый из которых стоит 1 балл, поэтому оценка будет целым числом от 0 до 100. Если вы предполагаете, что нет корреляции между правильностью тестируемого от проблемы к проблеме (хотя сомнительное предположение ), оценка представляет собой сумму независимых случайных величин, и применяется Центральная предельная теорема. По мере увеличения количества вопросов доля правильных задач сходится к нормальному распределению.
Вы задаете хороший вопрос о значениях меньше 0. Вы также можете задать тот же вопрос о значениях, превышающих 100%. По мере увеличения количества тестовых вопросов дисперсия суммы уменьшается, поэтому пик приближается к среднему. Аналогично, нормальное распределение наилучшего соответствия будет иметь меньшую дисперсию, а вес pdf вне интервала [0, 1] стремится к 0, хотя он всегда будет отличным от нуля. Промежуток между возможными значениями «правильной дроби» также будет уменьшаться (1/100 для 100 вопросов, 1/1000 для 1000 вопросов и т. Д.), Поэтому в неформальном порядке pdf начинает вести себя все больше и больше как непрерывный pdf.
источник