Диапазон значений асимметрии и эксцесса для нормального распределения

11

Я хочу знать, каков диапазон значений асимметрии и эксцесса, для которых данные считаются нормально распределенными.

Я прочитал много аргументов, и в основном я получил смешанные ответы. Некоторые говорят, что асимметрия и для эксцесса является приемлемым диапазоном для нормального распределения. Некоторые говорят для асимметрии является приемлемым диапазоном. Я нашел подробное обсуждение здесь: каков допустимый диапазон асимметрии и эксцесса для нормального распределения данных по этой проблеме. Но я не смог найти решающего утверждения.( - 2 , 2 ) ( - 1,96 , 1,96 )(-1,1)(-2,2)(-1,96,1,96)

Что является основанием для определения такого интервала? Это субъективный выбор? Или за этими интервалами есть какое-то математическое объяснение?

Темный рыцарь
источник
3
Что или кто определяет «приемлемый»?
Glen_b
Это хороший вопрос. У меня нет четкого ответа на это.
Dark_Knight
Правильно ли я считаю, что в основе вашего вопроса лежит некий подразумеваемый метод, похожий на следующий: «Прежде чем оценивать эту модель / выполнить этот тест, проверьте асимметрию образца и эксцесс. Если они оба находятся в некоторых предварительно заданных диапазонах, используйте некоторые нормальная теория процедуры, в противном случае используйте что-то еще ". ...?
Glen_b
Если да, то какие процедуры-с-нормальными допущениями вы могли бы использовать такой подход? На каких переменных вы бы это проверили? Какие альтернативные процедуры вы бы использовали, если бы пришли к выводу, что они не являются «приемлемыми» по какому-либо критерию?
Glen_b
Кроме того - и это может быть важно для контекста, особенно в тех случаях, когда предлагаются некоторые обоснования для выбора некоторых границ - вы можете включить любые цитаты, диапазоны которых похожи на эти, которые вы можете получить (особенно, когда предлагаемые диапазоны довольно другой)? Одна вещь, которую было бы полезно узнать из такого контекста - в каких ситуациях они используют подобные вещи?
Glen_b

Ответы:

6

Оригинальный пост пропускает пару основных моментов: (1) Никакие «данные» не могут быть нормально распределены. Данные обязательно дискретны. Правильный вопрос: «Является ли процесс, который произвел данные, нормально распределенным процессом?» Но (2) ответ на второй вопрос всегда «нет», независимо от того, что дает вам какой-либо статистический тест или другая оценка, основанная на данных. Нормально распределенные процессы производят данные с бесконечной непрерывностью, идеальной симметрией и точно заданными вероятностями в пределах диапазонов стандартного отклонения (например, 68-95-99.7), ни одно из которых никогда не может быть точно верным для процессов, которые дают данные, которые мы можем измерить любым измерительное устройство, которое мы, люди, можем использовать.

Таким образом, вы никогда не сможете считать данные нормально распределенными, и вы никогда не сможете считать процесс, который создал данные, точно точно распределенным процессом. Но, как указал Glen_b, это может не иметь большого значения, в зависимости от того, что вы пытаетесь делать с данными.

Статистика асимметрии и эксцесса может помочь вам оценить определенные виды отклонений от нормальности вашего процесса генерации данных. Это очень изменчивая статистика. Стандартные ошибки, приведенные выше, бесполезны, потому что они действительны только при нормальных условиях, что означает, что они полезны только как тест на нормальность, по существу бесполезное упражнение. Было бы лучше использовать начальную загрузку, чтобы найти se, хотя для получения точных se были бы необходимы большие выборки.

Кроме того, эксцесс очень легко интерпретировать, в отличие от приведенного выше поста. Это среднее (или ожидаемое значение) значений Z, каждое из которых переводится в четвертую степень. Большой | Z | значения являются выбросами и вносят большой вклад в куртоз. Маленький | Z | значения, где «пик» распределения, дают значения Z ^ 4, которые являются крошечными и по существу ничего не вносят в эксцесс. В своей статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ я доказал, что эксцесс очень хорошо аппроксимируется средним значением Z ^ 4 * I (| Z |> 1). Следовательно, эксцесс измеряет склонность процесса генерации данных к выбросам.

Питер Уэстфолл
источник
Просто чтобы выяснить, что именно вы подразумеваете под «нормально распределенным процессом»? Я понимаю, что вы говорите о дискретности и непрерывности случайных величин, но как насчет предположения о нормальном распределении, которое можно сделать с помощью теоремы о центральном пределе?
Dark_Knight
CLT здесь не имеет значения - мы говорим о распределении, которое производит отдельные значения данных, а не средние значения. «Нормально распределенный процесс» - это процесс, который создает нормально распределенные случайные величины. В качестве примера можно привести идеальный генератор случайных чисел на обычном компьютере (такого не существует, но они чертовски хороши в используемом нами программном обеспечении.)
Питер Вестфол
Кроме того, поскольку ни один процесс, который производит данные, которые мы можем анализировать, не является нормальным процессом, из этого также следует, что распределение средних значений, полученных любым таким процессом, также никогда не бывает точно нормальным, независимо от размера выборки. Но да, распределения таких средних могут быть близки к нормальным распределениям в соответствии с CLT. Близость таких распределений к норме зависит от (i) размера выборки и (ii) степени ненормальности процесса генерирования данных, который производит отдельные значения данных.
Питер Уэстфолл
4
Привет, Питер. Можете ли вы избежать ссылок типа «выше», потому что порядок сортировки изменится. То, что выше для вас, может не быть выше для следующего человека, чтобы посмотреть. Если вы имеете в виду пост Gung или мой пост (все еще в редактировании, так как я работаю над некоторыми его аспектами), вы можете просто идентифицировать их по их автору.
Glen_b
Вы, кажется, в вышесказанном утверждаете, что более высокий эксцесс подразумевает более высокую тенденцию вызывать выбросы. Если вы не определяете выбросы тавтологически (то есть, чтобы сделать утверждение истинным), это не утверждение, которое верно в общем случае. Например, довольно легко построить пары распределений, в которых тот, у кого более тяжелый хвост, имеет меньший эксцесс.
Glen_b
5

То, что вы, похоже, здесь просите, это стандартная ошибка для асимметрии и эксцесса образца, взятого из нормальной популяции. Обратите внимание, что существуют различные способы оценки таких вещей, как асимметрия или жирность ( куртоз ), которые, очевидно, будут влиять на стандартную ошибку. Наиболее распространенные меры, о которых думают люди, более технически известны как 3-й и 4-й стандартизированные моменты.

[1,)3КUрTоsяs-3[-2,)sКевесNеss2+124/N0

Для чего это стоит, стандартные ошибки:

SЕ(sКевесNеss)знак равно6N(N-1)(N-2)(N+1)(N+3)SЕ(КUрTоsяs)знак равно2×SЕ(sКевесNеss)N2-1(N-3)(N+5)

0

  • <|0,5|
  • [|0,5|,|1|)
  • |1|

Хороший вводный обзор асимметрии и эксцессов можно найти здесь .

Gung - Восстановить Монику
источник
3

[В дальнейшем я предполагаю, что вы предлагаете что-то вроде «проверить асимметрию образца и эксцесс, если они оба в некоторых предварительно заданных диапазонах, используют какую-то нормальную теоретическую процедуру, в противном случае используйте что-то другое».]

В этом есть масса аспектов, из которых у нас будет место только для нескольких соображений. Я начну с перечисления того, что, на мой взгляд, может быть важным для рассмотрения, прежде чем перейти к использованию такого критерия, как этот. Я постараюсь вернуться и написать немного о каждом предмете позже:

Вопросы для рассмотрения

  1. Насколько сильно различные виды ненормальности будут иметь значение для того, что мы делаем?

  2. Насколько сложно уловить эти отклонения, используя диапазоны асимметрии и эксцессы?

    Одна вещь, с которой я согласен в предложении - она ​​рассматривает пару мер, связанных с величиной эффекта ( насколько отклонение от нормы), а не значимостью. В этом смысле это приблизится к рассмотрению чего-то полезного, что формальный тест гипотезы, который будет иметь тенденцию отклонять даже тривиальные отклонения при больших размерах выборки, предлагая при этом ложное утешение не отклонения гораздо больших (и более значимых) отклонений при малые размеры выборки. (Проверка гипотез решает неправильный вопрос здесь.)

    Конечно, при небольших размерах выборки это все еще проблематично в том смысле, что показатели очень «шумные», поэтому мы все еще можем заблудиться там (доверительный интервал поможет нам понять, насколько это может быть на самом деле плохо).

    Это не говорит нам о том, как отклонение в асимметрии или эксцессах связано с проблемами с тем, для чего мы хотим нормальности - и разные процедуры могут сильно отличаться в своих реакциях на ненормальность.

    Нам не поможет, если наше отклонение от нормальности будет таким, к которому асимметрия и эксцесс будут слепыми.

  3. Если вы используете эту выборочную статистику в качестве основы для выбора между двумя процедурами, как это повлияет на свойства полученного вывода (например, для проверки гипотезы, как выглядят ваш уровень значимости и мощность при этом?)

  4. Существует бесконечное число распределений, которые имеют точно такую ​​же асимметрию и эксцесс, что и нормальное распределение, но явно ненормальные. Они даже не должны быть симметричными! Как существование таких вещей влияет на использование таких процедур? Предприятие обречено с самого начала?

  5. Как много различий в асимметрии и эксцессах образца вы могли видеть в образцах, взятых из нормальных распределений? (Какую долю нормальных образцов мы бы закончили выбрасывать по какому-то правилу?)

    [Частично этот вопрос связан с тем, что Ганг обсуждает в своем ответе.]

  6. Может ли быть что-то лучше сделать вместо этого?

Наконец, если после рассмотрения всех этих вопросов мы решим, что нам следует пойти дальше и использовать этот подход, мы приходим к соображениям, вытекающим из вашего вопроса:

  1. Каковы хорошие границы для асимметрии и эксцесса для различных процедур? Какие переменные нам нужно беспокоиться, в каких процедурах?

    (например, если мы делаем регрессию, учтите, что неправильно обращаться с любым IV и даже с необработанным DV таким образом - предполагается, что ни один из них не был взят из общего нормального распределения)


Я вернусь и добавлю некоторые мысли, но любые комментарии / вопросы, которые у вас есть, могут быть полезны.

Glen_b - Восстановить Монику
источник
0
И я также не понимаю, зачем нам нужен какой-то определенный диапазон значений асимметрии и эксцесса для выполнения любого теста на нормальность?
Dark_Knight