Это граничит с философским вопросом, но мне интересно, как другие люди с большим опытом думают о выборе распределения. В некоторых случаях кажется ясным, что теория могла бы работать лучше (длины хвоста мышей, вероятно, нормально распределены). Во многих случаях, вероятно, нет теории для описания набора данных, так что вы просто используете что-то, что подходит вам достаточно хорошо, независимо от того, что было изначально разработано для описания? Я могу вообразить некоторые подводные камни, связанные с тем или иным из них, и, конечно, возникает проблема, заключающаяся в том, что, возможно, вам следует просто использовать эмпирическое распределение, если вы действительно не знаете.
Итак, я думаю, что я действительно спрашиваю: есть ли у кого-то последовательный подход к этой проблеме? И есть ли какие-либо ресурсы, которые вы можете предложить, чтобы дать хорошее отношение к этому?
источник
Ответы:
Определенно зависит от того, что представляют собой данные, и сколько человек знает или желает предположить о них. Как недавно сказал @whuber в чате : «Там, где задействован физический закон, вы почти всегда можете сделать разумные предположения о подходящем способе моделирования данных». (Я подозреваю, что это правдивее с его стороны, чем с моей стороны! Кроме того, я надеюсь, что это не используется не по назначению вне контекста ...) В случаях, более похожих на моделирование скрытых конструкций в социальных науках, часто полезно сосредоточиться на эмпирические распределения как способ понимания нюансов менее известных явлений. Слишком легко предположить нормальное распределение и отклонить несоответствие в общей форме как незначительное, и весьма показательно отклонить выбросы как ошибочные без большего оправдания, чем то, что они не делают.
Конечно, большая часть этого поведения мотивируется предположениями анализа, который каждый хочет применить. Часто наиболее интересные вопросы выходят далеко за рамки описания или классификации распределений переменных. Это также влияет на правильный ответ для данного сценария; Могут быть причины (например, потребности в энергии ), чтобы предполагать нормальное распределение, когда оно не подходит особенно хорошо (или не подходит слишком плохо), так как непараметрические и другие надежные методы также не идеальны. Тем не менее, риск сделать это обычно забывает задавать интересные вопросы, которые можно задать о распределении одной переменной.
Например, рассмотрим связь между богатством и счастьем: популярный вопрос, который люди обычно хотят задать. Можно предположить, что богатство следует за гамма-распределением (Salem & Mount, 1974) или обобщенным бета-тестированием (Parker, 1999) , но действительно ли безопасно предполагать, что счастье распределяется нормально? На самом деле, совсем не обязательно предполагать это, просто чтобы ответить на первоначальный вопрос, но люди иногда так и делают, а затем игнорируют потенциально важные проблемы, такие как смещение реакции и культурные различия. Например, некоторые культуры склонны давать более или менее экстремальные ответы (см. Ответ @ chl на Факторный анализ вопросников, составленных из элементов Лайкерта ), а нормы различаются в отношении открытого выражения положительных и отрицательных эмоций (Такер, Озер, Любомирский и Бём, 2006 ) . Это может повысить важность различий в эмпирических характеристиках распределения, таких как асимметрия и эксцесс. Если бы я сравнивал отношение богатства к субъективным рейтингам счастья в России, Китае и США, я бы, вероятно, хотел бы оценить различия в основных тенденциях рейтингов счастья. При этом я не решался бы предполагать нормальное распределение по каждому из них в пользу одностороннего ANOVA (даже если он может быть достаточно устойчивым к нарушениям).) когда есть основания ожидать «толстого хвоста» распределения в Китае, положительно искаженного распределения в России и отрицательно искаженного распределения в США из-за различных зависимых от культуры норм и предубеждений. Ради теста значимости (хотя я бы, честно говоря, предпочел бы просто сообщать о величинах эффекта), я бы предпочел использовать непараметрический метод, и ради реального понимания субъективного счастья в каждой популяции в отдельности, я бы лучше описать распределение эмпирически, чем пытаться классифицировать его как простое теоретическое распределение и игнорировать или приукрашивать любые несоответствия. Это пустая трата информации ИМО.
Список литературы
- Parker, SC (1999). Обобщенная бета-модель как модель распределения заработка. Письма Экономики, 62 (2), 197–200.
- Salem, ABZ & Mount, TD (1974). Удобная описательная модель распределения доходов: гамма-плотность. Эконометрика, 42 (6), 1115–1127.
- Такер К.Л., Озер Д.Дж., Любомирский С. и Боэм Дж.К. (2006). Тестирование на измерение инвариантности в удовлетворенности шкалой жизни: сравнение россиян и североамериканцев. Исследование социальных показателей, 78 (2), 341–360. Получено с http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
источник
Я бы сомневался в этом. Нормальные распределения возникают из многих независимых аддитивных эффектов. Биологические системы состоят из множества взаимодействующих петель обратной связи (взаимозависимые мультипликативные эффекты). Также часто есть некоторые состояния, которые являются более стабильными, чем другие (например, аттракторы). Таким образом, некоторый вид длиннохвостого или мультимодального распределения, вероятно, описал бы длину хвоста. Фактически, нормальное распределение, вероятно, является очень плохим выбором по умолчанию для описания чего-либо биологического, и его неправильное использование ответственно за многие "выбросы", о которых сообщалось в этой литературе. Распространенность этого распределения в природе - это миф, и не только в смысле «идеальных кругов не существует». Однако из этого не следует, что среднее и sd бесполезны в качестве сводной статистики.
Подгонка эмпирических распределений дает подсказки по основному процессу, который облегчает развитие теоретических распределений. Затем теоретическое распределение сравнивается с эмпирическим распределением, чтобы проверить доказательства для теории.
Если ваша цель состоит в оценке вероятности определенных результатов на основе имеющихся имеющихся данных, и у вас нет причин выбирать именно это распределение, я думаю, я не понимаю, как могут быть полезны дополнительные предположения. Вместо этого это, кажется, запутывает вещи.
Однако, если вы пытаетесь описать или обобщить данные, тогда может иметь смысл соответствовать распределению.
источник
Длина хвоста, конечно, обычно не распределена.
Нормальные распределения имеют ненулевую вероятность принятия отрицательных значений; длины хвоста нет.
Знаменитая линия Джорджа Бокса , « все модели ошибочны, но некоторые полезны », подтверждает это довольно хорошо. Случаи, когда мы можем разумно утверждать о нормальности (а не только о приблизительной нормальности), действительно очень редки, почти легендарные создания, миражи иногда почти не видны из уголка глаза.
В тех случаях, когда интересующие вас количества не особенно чувствительны к выбору (при условии, что широкие возможности распределения соответствуют тому, что известно), тогда да, вы можете просто использовать что-то, что подходит достаточно хорошо.
В случаях, когда существует более высокая степень чувствительности, «просто использовать то, что подходит» само по себе недостаточно. Мы могли бы использовать некоторый подход, который не делает конкретных допущений (например, процедуры без распределения, такие как перестановка, начальная загрузка или другие подходы повторной выборки, или надежные процедуры). В качестве альтернативы мы могли бы количественно оценить чувствительность к предположению о распределении, например, с помощью моделирования (на самом деле, я думаю, что это, как правило, хорошая идея).
Я бы не стал описывать это как проблему - основанный на эмпирических распределениях вывод, безусловно, является законным подходом, подходящим для решения многих задач (два примера - перестановка / рандомизация и начальная загрузка).
в целом, во многих случаях я склонен рассматривать такие вопросы, как:
1) Что я понимаю * о том, как средства (или другие величины типа местоположения) ведут себя для данных этой формы?
* (будь то из теории, или опыта этой формы данных, или из советов экспертов, или, если необходимо, из самих данных, хотя это несет в себе проблемы, с которыми нужно иметь дело)
2) Как насчет спреда (дисперсия, IQR и т. Д.) - как он себя ведет?
3) Как насчет других особенностей распределения (границы, асимметрия, дискретность и т. Д.)
4) Как насчет зависимости, неоднородности популяций, склонности к иногда очень противоречивым значениям и т. Д.
Подобные соображения могут определять выбор между нормальной моделью, GLM, некоторой другой моделью или некоторым надежным или не распространяющимся подходом (например, подходами начальной загрузки или перестановки / рандомизации, включая процедуры на основе рангов)
источник