Я хочу знать, каков диапазон значений асимметрии и эксцесса, для которых данные считаются нормально распределенными.
Я прочитал много аргументов, и в основном я получил смешанные ответы. Некоторые говорят, что асимметрия и для эксцесса является приемлемым диапазоном для нормального распределения. Некоторые говорят для асимметрии является приемлемым диапазоном. Я нашел подробное обсуждение здесь: каков допустимый диапазон асимметрии и эксцесса для нормального распределения данных по этой проблеме. Но я не смог найти решающего утверждения.( - 2 , 2 ) ( - 1,96 , 1,96 )
Что является основанием для определения такого интервала? Это субъективный выбор? Или за этими интервалами есть какое-то математическое объяснение?
normal-distribution
skewness
kurtosis
Темный рыцарь
источник
источник
Ответы:
Оригинальный пост пропускает пару основных моментов: (1) Никакие «данные» не могут быть нормально распределены. Данные обязательно дискретны. Правильный вопрос: «Является ли процесс, который произвел данные, нормально распределенным процессом?» Но (2) ответ на второй вопрос всегда «нет», независимо от того, что дает вам какой-либо статистический тест или другая оценка, основанная на данных. Нормально распределенные процессы производят данные с бесконечной непрерывностью, идеальной симметрией и точно заданными вероятностями в пределах диапазонов стандартного отклонения (например, 68-95-99.7), ни одно из которых никогда не может быть точно верным для процессов, которые дают данные, которые мы можем измерить любым измерительное устройство, которое мы, люди, можем использовать.
Таким образом, вы никогда не сможете считать данные нормально распределенными, и вы никогда не сможете считать процесс, который создал данные, точно точно распределенным процессом. Но, как указал Glen_b, это может не иметь большого значения, в зависимости от того, что вы пытаетесь делать с данными.
Статистика асимметрии и эксцесса может помочь вам оценить определенные виды отклонений от нормальности вашего процесса генерации данных. Это очень изменчивая статистика. Стандартные ошибки, приведенные выше, бесполезны, потому что они действительны только при нормальных условиях, что означает, что они полезны только как тест на нормальность, по существу бесполезное упражнение. Было бы лучше использовать начальную загрузку, чтобы найти se, хотя для получения точных se были бы необходимы большие выборки.
Кроме того, эксцесс очень легко интерпретировать, в отличие от приведенного выше поста. Это среднее (или ожидаемое значение) значений Z, каждое из которых переводится в четвертую степень. Большой | Z | значения являются выбросами и вносят большой вклад в куртоз. Маленький | Z | значения, где «пик» распределения, дают значения Z ^ 4, которые являются крошечными и по существу ничего не вносят в эксцесс. В своей статье https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ я доказал, что эксцесс очень хорошо аппроксимируется средним значением Z ^ 4 * I (| Z |> 1). Следовательно, эксцесс измеряет склонность процесса генерации данных к выбросам.
источник
То, что вы, похоже, здесь просите, это стандартная ошибка для асимметрии и эксцесса образца, взятого из нормальной популяции. Обратите внимание, что существуют различные способы оценки таких вещей, как асимметрия или жирность ( куртоз ), которые, очевидно, будут влиять на стандартную ошибку. Наиболее распространенные меры, о которых думают люди, более технически известны как 3-й и 4-й стандартизированные моменты.
Для чего это стоит, стандартные ошибки:
Хороший вводный обзор асимметрии и эксцессов можно найти здесь .
источник
[В дальнейшем я предполагаю, что вы предлагаете что-то вроде «проверить асимметрию образца и эксцесс, если они оба в некоторых предварительно заданных диапазонах, используют какую-то нормальную теоретическую процедуру, в противном случае используйте что-то другое».]
В этом есть масса аспектов, из которых у нас будет место только для нескольких соображений. Я начну с перечисления того, что, на мой взгляд, может быть важным для рассмотрения, прежде чем перейти к использованию такого критерия, как этот. Я постараюсь вернуться и написать немного о каждом предмете позже:
Вопросы для рассмотрения
Насколько сильно различные виды ненормальности будут иметь значение для того, что мы делаем?
Насколько сложно уловить эти отклонения, используя диапазоны асимметрии и эксцессы?
Одна вещь, с которой я согласен в предложении - она рассматривает пару мер, связанных с величиной эффекта ( насколько отклонение от нормы), а не значимостью. В этом смысле это приблизится к рассмотрению чего-то полезного, что формальный тест гипотезы, который будет иметь тенденцию отклонять даже тривиальные отклонения при больших размерах выборки, предлагая при этом ложное утешение не отклонения гораздо больших (и более значимых) отклонений при малые размеры выборки. (Проверка гипотез решает неправильный вопрос здесь.)
Конечно, при небольших размерах выборки это все еще проблематично в том смысле, что показатели очень «шумные», поэтому мы все еще можем заблудиться там (доверительный интервал поможет нам понять, насколько это может быть на самом деле плохо).
Это не говорит нам о том, как отклонение в асимметрии или эксцессах связано с проблемами с тем, для чего мы хотим нормальности - и разные процедуры могут сильно отличаться в своих реакциях на ненормальность.
Нам не поможет, если наше отклонение от нормальности будет таким, к которому асимметрия и эксцесс будут слепыми.
Если вы используете эту выборочную статистику в качестве основы для выбора между двумя процедурами, как это повлияет на свойства полученного вывода (например, для проверки гипотезы, как выглядят ваш уровень значимости и мощность при этом?)
Существует бесконечное число распределений, которые имеют точно такую же асимметрию и эксцесс, что и нормальное распределение, но явно ненормальные. Они даже не должны быть симметричными! Как существование таких вещей влияет на использование таких процедур? Предприятие обречено с самого начала?
Как много различий в асимметрии и эксцессах образца вы могли видеть в образцах, взятых из нормальных распределений? (Какую долю нормальных образцов мы бы закончили выбрасывать по какому-то правилу?)
[Частично этот вопрос связан с тем, что Ганг обсуждает в своем ответе.]
Может ли быть что-то лучше сделать вместо этого?
Наконец, если после рассмотрения всех этих вопросов мы решим, что нам следует пойти дальше и использовать этот подход, мы приходим к соображениям, вытекающим из вашего вопроса:
Каковы хорошие границы для асимметрии и эксцесса для различных процедур? Какие переменные нам нужно беспокоиться, в каких процедурах?
(например, если мы делаем регрессию, учтите, что неправильно обращаться с любым IV и даже с необработанным DV таким образом - предполагается, что ни один из них не был взят из общего нормального распределения)
Я вернусь и добавлю некоторые мысли, но любые комментарии / вопросы, которые у вас есть, могут быть полезны.
источник