Могу ли я проверить гипотезу для искаженных нормальных данных?

11

У меня есть набор данных, который, как я думал, изначально был распространен. Затем я на самом деле посмотрел на это и понял, что это не так, в основном из-за того, что данные искажены, и я также провел тест Шапиро-Уилкса.

Я все еще хотел бы проанализировать это, используя статистические методы, и поэтому я хотел бы выдвинуть гипотезу проверки на нормальность.

Поэтому я хотел бы знать, есть ли способ проверить нормальность перекоса и, если возможно, библиотеку для проведения теста для меня.

Squidly
источник

Ответы:

8

Относительно того, как вписать данные в асимметричное распределение Вы можете рассчитать оценку максимального правдоподобия из первых принципов. Сначала заметим , что функция плотности вероятности для косого нормального распределения с параметром местоположения , масштаб параметр и форма параметра естьω αξωα

2ωφ(Икс-ξω)Φ(α(Икс-ξω))

где - стандартная функция нормальной плотности, а - стандартная нормальная CDF. Обратите внимание, что эта плотность является членом класса, описанного в моем ответе на этот вопрос .Φ ( )φ()Φ()

Логарифмическая вероятность, основанная на выборке из независимых наблюдений из этого распределения:N

-Nжурнал(ω)+Σязнак равно1Nжурналφ(Икс-ξω)+журналΦ(α(Икс-ξω))

Это факт, что для этой MLE не существует решения в закрытой форме. Но это можно решить численно. Например, в R, вы можете кодировать функцию правдоподобия следующим образом (обратите внимание, я сделал ее менее компактной / эффективной, чем возможно, чтобы сделать ее полностью прозрачной, как это вычисляет функцию правдоподобия выше):

set.seed(2345)

# generate standard normal data, which is a special case
n = 100 
X = rnorm(n) 

# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{

    # positivity constraint on omega
    if( P[1] <= 0 ) return(Inf)

    S = 0
    for(i in 1:n) 
    {
        S = S - log( dnorm( (X[i] - P[2])/P[1] ) ) 
        S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) ) 
    }


    return(S + n*log(P[1]))
}

Теперь мы просто минимизируем эту функцию (т.е. максимизируем вероятность). Вы можете сделать это без необходимости вычислять производные с помощью Симплексного алгоритма , который является реализацией по умолчанию в optim()пакете R.

Относительно того, как проверить на асимметрию: мы можем явным образом протестировать на перекос-нормальное и нормальное (так как нормальное является подмоделью), ограничив и выполнив тест отношения правдоподобия .αзнак равно0

# log likelihood constraining alpha=0. 
L2 = function(Q) L(c(Q[1],Q[2],0))

# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816

# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064

# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)

# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265

Поэтому мы не отвергаем нулевую гипотезу о том, что (т. Е. Нет перекоса).αзнак равно0

Здесь сравнение было простым, поскольку нормальное распределение было подмоделью. В других, более общих случаях, вы можете сравнить нормальный перекос с другими эталонными распределениями, сравнивая, например, AIC (как здесь ), если вы используете оценки максимального правдоподобия во всех конкурирующих подборах. Например, вы могли бы подогнать данные по максимальной вероятности под гамма-распределением и под нормалью асимметрии и посмотреть, оправдывает ли добавленная вероятность дополнительную сложность асимметрии (3 параметра вместо 2). Вы также можете рассмотреть возможность использования одного образца критерия Колмогорова Смирнова для сравнения ваших данных с наилучшей оценкой из семейства косо-нормальных.

макрос
источник
1
+1, я думаю, что это четкий, обстоятельный и конструктивный ответ. В последнем абзаце у меня есть 1 придирка / беспокойство по поводу использования AIC. У меня есть проблема с различными информационными критериями, заключающаяся в том, что они предполагают, что все параметры в равной степени влияют на способность модели соответствовать данным. При оценке различных моделей множественной регрессии, я думаю, это нормально; однако, если рассматривать различные типы распределений, мне априори не ясно, что все параметры обеспечивают одинаковую гибкость. Таким образом, мне неудобно с этим. Какова ваша позиция по этому вопросу?
gung - Восстановить Монику
+1 Я просто немного обеспокоен некоторыми проблемами с нормальным перекосом Аззалини, такими как: (1) информационная матрица Фишера для параметра , параметра асимметрии, является единственной в что указывает на логические проблемы в этой точке, особенно когда использование статистики отношения правдоподобия; (2) Вероятность профиля обычно очень плоская ; (3) Он имеет две точки перегиба, и объединенная MLE не существует для некоторых наборов данных. ααзнак равно0α(μ,σ,α)
@ Gung, это хороший момент. Я использовал AIC в качестве примера больше всего на свете - можно было использовать что-то еще - но я видел, как люди используют AIC для сравнения моделей с различным распределением ошибок, что фактически делает то же самое предположение, что все параметры «созданы равными». Вы видели литературу на эту тему? Мне было бы интересно.
Макро
@Procrastinator, когда , у вас есть регулярное нормальное распределение в качестве подмодели . Сделать это сравнение несложно, не инвертируя информацию о Фишере. Re: (2), да, это правда, также верно, что уровень асимметрии, достижимый с этим распределением, довольно скромен (максимально около что происходит, когда расходится с ), поэтому в любое время набор данных отображает этот уровень перекоса, вероятность будет довольно плоской (то есть медленно увеличивается по мере расхождения ). Я полагаю, что последнее замечание было также связано с (3)αзнак равно0±+0,9α±αα
Макро
1
@Macro Спасибо за это. Это также зависит от того, как вы измеряете асимметрию, в настоящее время измерения на основе моментов не очень используются, потому что они существуют только для распределений с прямыми хвостами. Проблема также в том, что вероятность профиля имеет две точки перегиба (как показано в моей первой ссылке). На веб-сайте Аззалини он также упоминает, что MLE не существует для некоторых наборов данных, которые он также характеризует. Это тонкий момент в отношении этого распределения, который вызвал много критики. Спасибо за обсуждение. α
5

Я статистик, работаю в этой профессии более 30 лет, и до прочтения этого поста я никогда не слышал о нормальном перекосе. Если у вас есть сильно искаженные данные, почему конкретно хотите смотреть на нормальный перекос, а не на логнормальный или гамма-эффект? В любое время, когда у вас есть параметрическое семейство распределений, таких как гамма, логнормальное или косое нормальное, вы можете применить критерий добротности, такой как хи-квадрат или Колмогоров-Смирнов.

Майкл Р. Черник
источник
5
Azzalini skew normal - популярный дистрибутив, предложенный в 1985 году. Он имеет поддержку по всей реальной линии.
1
@Procrastinator Я знаю это сейчас и, наверное, должен был услышать об этом раньше. Но я предполагаю, что моя точка зрения такова, что, поскольку я не слышал об этом, возможно, он немного более неясен, чем другие искаженные дистрибутивы. Я получил точку зрения о поддержке по всей реальной линии, в отличие от моих примеров, которые поддерживают только на [0.∞) или {a, ∞), если добавлен параметр сдвига. Эти распределения являются всего лишь приблизительными, чтобы описать, как распределяются данные. Мы действительно знаем, что все отрицательные значения возможны? В практических случаях данные, вероятно, имеют нижнюю и верхнюю границы.
Майкл Р. Черник
1
@Procrastinator Это не имеет ничего общего с моим комментарием. Я говорю, что реальные данные часто действительно ограничены, даже если их можно хорошо аппроксимировать неограниченными распределениями.
Майкл Р. Черник
1
@ Procrastinator Не совсем. Если вам дан конечный набор чисел, вы не сможете определить по данным, являются ли они дискретным или непрерывным распределением. То же самое относится и к ограниченности. Я говорю, что помимо данных вы будете знать строго на основе того, что вы измеряете, является ли оно ограниченным, непрерывным или дискретным. Например, если вы измеряете вес человека, вы знаете, что вес больше 0 и ограничен физическими ограничениями, скажем, 5000 фунтов.
Майкл Р. Черник
1
Также, несмотря на то, что измерения веса могут быть определены только для определенного числа десятичных знаков, разумно рассматривать вес как непрерывный. Теперь, если вы собираетесь перевернуть монету 10 раз, вы знаете, что количество голов, которые вы получите, должно быть целым числом от 0 до 10 (таким дискретным и ограниченным). Моя точка зрения заключается в том, что границы распределения обычно очень очевидны. Это не так ясно при выборе между непрерывным и дискретным распределением.
Майкл Р. Черник
1

Таким образом, в итоге я решил загрузить пакет fGarch , snormFitпредоставленный fGarch, чтобы получить MLE для параметров в Skewed-Normal.

Затем я подключил эти параметры с помощью dsnormфункции, предоставленной fGarch, к тесту Колмогорова-Смирнова.

Squidly
источник
Как можно объединить MLE и критерий Колмогорова-Смирнова, который является непараметрическим критерием?
Я хотел бы отметить, что я понятия не имею, что я делаю, и просто блуждал слепо. Я предположил, что KS работал как хи-квадрат, и он смотрел на различия между тем, какие выборочные данные у меня есть, и каким должно быть само распределение. R's ks.test сначала принимает пример данных, а затем распределение вместе с параметрами этого распределения. Я использовал MLE в качестве параметров. Кроме того, моё предположение / воспоминание о том, как работает хи-квадрат, также могло быть ошибочным ...
Squidly
ЧАС0:λзнак равно0
ЧАС0знак равноλзнак равно0ЧАС0
1
@Procrastinator Есть много хороших тестов соответствия, основанных на эмпирическом cdf. Колмогоров Смирнов один. Этот тест можно использовать для сравнения эмпирического файла cdf с любым конкретным распределением (и с корректировками, когда неизвестные параметры оцениваются перед тестированием. Вы абсолютно правы, что отклонение распределения для нормальности, например, не говорит о том, как отличаются распределения. Но MrBones, если он хочет сделать это формально, он может проверить на значительную асимметрию, а затем выполнить тест KS или хи-квадрат на нормальную асимметрию. Для многократного тестирования можно внести коррективы. Зачем быть самодовольным с ОП?
Майкл Р. Черник
0

Проверьте http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdf и http://en.wikipedia.org/wiki/Skewness

Вы можете использовать тест Карла Пирсона на асимметрию. Отношение третьего момента к кубу стандартного отклонения называется коэффициентом асимметрии. Симметричные распределения будут иметь асимметрию = 0

NaN
источник
2
Я не хочу работать с искажением моих данных. Я знаю, что это искажено. Я хочу знать, соответствует ли мои данные неравномерному распределению.
Squidly
2
Какое программное обеспечение вы используете, R имеет пакет 'sn' (нормальный перекос), который содержит функции, которые вычисляют оценки ML. Я не уверен в точных функциях, хотя - проверьте этот сайт azzalini.stat.unipd.it/SN для деталей о пакете R
NaN
0

в SPSS вы можете получить оценку асимметрии (перейдя к анализу, затем описанию, а затем пометить асимметрию), затем вы получите оценку асимметрии и SE (стандартная ошибка) асимметрии. Разделите асимметрию на ее SE, и если ваш счет между + -1,96, то это обычно перекос. Если это не перекос, то есть много непараметрических тестов! Удачи и всего наилучшего!

URI
источник