Каков хороший показатель степени нарушения нормальности и какие описательные метки могут быть прикреплены к этому индексу?

12

Контекст:

В предыдущем вопросе @Robbie спросил в исследовании около 600 случаев, почему тесты на нормальность предполагали значительную ненормальность, а графики предлагали нормальное распределение . Несколько человек отметили, что значимые тесты нормальности не очень полезны. С небольшими выборками такие тесты не имеют достаточной силы для выявления легких нарушений нормальности, а с большими выборками они обнаруживают нарушения нормальности, которые достаточно малы, чтобы не вызывать беспокойства.

Мне кажется, что эта проблема похожа на дискуссию о значимости тестирования и величины эффекта. Если вы сосредоточены только на тестах значимости, когда у вас большие выборки, вы можете обнаружить небольшие эффекты, которые не имеют значения для практических целей, а с небольшими выборками у вас недостаточно мощности.

В некоторых случаях я даже видел, как учебники советуют людям, что вы можете иметь «слишком большую» выборку, потому что небольшие эффекты будут статистически значимыми.

В контексте тестирования значимости и размеров эффекта одно простое решение состоит в том, чтобы сосредоточиться на оценке величины эффекта интереса, а не навязчиво придерживаться правила бинарного решения о том, есть ли эффект или нет. Доверительные интервалы по величинам эффекта - это один из таких подходов, или вы можете принять некоторую форму байесовского подхода. Кроме того, различные области исследований создают идеи о том, что данный размер эффекта означает в практическом смысле, к лучшему или худшему, применяя эвристические метки, такие как «маленький», «средний» и «большой эффект». Это также приводит к разумной рекомендации максимизировать размер выборки, чтобы максимизировать точность при оценке данного параметра, представляющего интерес.

Это заставляет меня задуматься о том, почему подобный подход, основанный на доверительных интервалах величин эффекта, не пользуется более широкой поддержкой в ​​отношении проверки предположений и, в частности, проверки нормальности.

Вопрос:

  • Каков наилучший единичный индекс степени, в которой данные нарушают нормальность?
  • Или лучше говорить о множественных показателях нарушения нормальности (например, асимметрия, эксцесс, распространенность)?
  • Как рассчитать доверительные интервалы (или, возможно, байесовский подход) для индекса?
  • Какого рода словесные метки вы могли бы назначить точкам в этом индексе, чтобы указать степень нарушения нормальности (например, мягкий, умеренный, сильный, экстремальный и т. Д.)? Целью таких ярлыков может быть помощь аналитикам с меньшим опытом в обучении их интуиции, когда нарушения нормальности проблематичны.
Джером англим
источник
5
Увлекательный вопрос.
rolando2
1
@Jeromy, это хороший вопрос, но позвольте мне добавить, что стандартные проверки графической модели, такие как qqplot или остаточный график в регрессии, на мой взгляд, фокусируются на «размере эффекта», а не на значении. В qqplot я бы искал тип и величину отклонения от прямой линии, чтобы направлять построение моей модели, а не просто обнаружение отклонения. Однако, рискуя упростить вопросы, может быть полезно дополнить qqplot некоторыми «критическими формами» и их типичными последствиями. p
NRH
1
@NRH Я согласен; вот что я делаю. Тем не менее, я часто предоставляю статистические консультации исследователям с меньшим опытом в оценке степени ненормальности по сюжету. Я думал, что указатель с различными качественными метками может дополнить тренировку визуальной интуиции.
Джером Энглим

Ответы:

13

А) Каков наилучший единичный индекс степени, в которой данные нарушают нормальность?

Б) Или просто лучше говорить о множественных показателях нарушения нормальности (например, асимметрия, эксцесс, распространенность)?

Я бы проголосовал за Б. Разные нарушения имеют разные последствия. Например, унимодальные, симметричные распределения с тяжелыми хвостами делают ваши CI очень широкими и, по-видимому, уменьшают способность обнаруживать любые эффекты. Однако среднее значение все еще достигает «типичного» значения. Для очень искаженных распределений, например, среднее значение может быть не очень разумным показателем «типичного значения».

C) Как можно рассчитать доверительные интервалы (или, возможно, байесовский подход) для индекса?

Я не знаю о байесовской статистике, но в отношении классического теста нормальности я хотел бы привести Erceg-Hurn et al. (2008) [2]:

Другая проблема состоит в том, что тесты предположений имеют свои собственные предположения. Тесты нормальности обычно предполагают, что данные являются гомоскедастичными; Тесты гомоскедастичности предполагают, что данные нормально распределены. Если допущения нормальности и гомоскедастичности нарушаются, валидность тестов допущений может быть серьезно скомпрометирована. Известные статистики описали предположительные тесты (например, тест Левена, тест Колмогорова – Смирнова), встроенные в программное обеспечение, такие как SPSS, как фатальные ошибки и рекомендовали, чтобы эти тесты никогда не использовались (D'Agostino, 1986; Glass & Hopkins, 1996).

D) Какие словесные метки вы могли бы присвоить точкам в этом индексе, чтобы указать степень нарушения нормальности (например, легкая, средняя, ​​сильная, экстремальная и т. Д.)?

Micceri (1989) [1] провел анализ 440 крупномасштабных наборов данных в психологии. Он оценил симметрию и вес хвоста и определил критерии и метки. Метки асимметрии варьируются от «относительно симметричной» до «умеренной -> экстремальной -> экспоненциальной асимметрии». Метки для веса хвоста находятся в диапазоне от «Равномерно -> меньше, чем гауссово -> О гауссово -> Умеренно -> Экстремально -> Двойное экспоненциальное загрязнение». Каждая классификация основана на нескольких надежных критериях.

Он обнаружил, что из этих 440 наборов данных только 28% были относительно симметричными, и только 15% были примерно гауссовыми относительно веса хвоста. Поэтому хорошее название статьи:

Единорог, нормальная кривая и другие невероятные существа

Я написал Rфункцию, которая автоматически оценивает критерии Micceri, а также распечатывает этикетки:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

Вот тест для стандартного нормального распределения, с 8 df и log-normal:t

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989). Единорог, нормальная кривая и другие невероятные существа. Психологический вестник, 105 , 156-166. DOI: 10,1037 / 0033-2909.105.1.156

[2] Эрцег-Херн Д.М., Миросевич В.М. (2008). Современные надежные статистические методы: простой способ максимизировать точность и эффективность ваших исследований. Американский психолог, 63 , 591-601.

Феликс С
источник
3
+1, это действительно отличный ответ. Тем не менее, я хочу придираться к 1 очку. Вы заявляете: «Унимодальные, симметричные распределения с тяжелыми хвостами делают ваши КИ очень широкими и, по-видимому, уменьшают способность обнаруживать любые эффекты». Если они не загружены, CI, как правило, основаны на асимптотике (нормальные предположения), поэтому тот факт, что у вашего dist толстые хвосты, не влияет ни на ширину CI, ни на мощность. Скорее это будет означать, что эмпирическая вероятность покрытия не будет соответствовать предполагаемой вероятности покрытия.
gung - Восстановить Монику