Контекст:
В предыдущем вопросе @Robbie спросил в исследовании около 600 случаев, почему тесты на нормальность предполагали значительную ненормальность, а графики предлагали нормальное распределение . Несколько человек отметили, что значимые тесты нормальности не очень полезны. С небольшими выборками такие тесты не имеют достаточной силы для выявления легких нарушений нормальности, а с большими выборками они обнаруживают нарушения нормальности, которые достаточно малы, чтобы не вызывать беспокойства.
Мне кажется, что эта проблема похожа на дискуссию о значимости тестирования и величины эффекта. Если вы сосредоточены только на тестах значимости, когда у вас большие выборки, вы можете обнаружить небольшие эффекты, которые не имеют значения для практических целей, а с небольшими выборками у вас недостаточно мощности.
В некоторых случаях я даже видел, как учебники советуют людям, что вы можете иметь «слишком большую» выборку, потому что небольшие эффекты будут статистически значимыми.
В контексте тестирования значимости и размеров эффекта одно простое решение состоит в том, чтобы сосредоточиться на оценке величины эффекта интереса, а не навязчиво придерживаться правила бинарного решения о том, есть ли эффект или нет. Доверительные интервалы по величинам эффекта - это один из таких подходов, или вы можете принять некоторую форму байесовского подхода. Кроме того, различные области исследований создают идеи о том, что данный размер эффекта означает в практическом смысле, к лучшему или худшему, применяя эвристические метки, такие как «маленький», «средний» и «большой эффект». Это также приводит к разумной рекомендации максимизировать размер выборки, чтобы максимизировать точность при оценке данного параметра, представляющего интерес.
Это заставляет меня задуматься о том, почему подобный подход, основанный на доверительных интервалах величин эффекта, не пользуется более широкой поддержкой в отношении проверки предположений и, в частности, проверки нормальности.
Вопрос:
- Каков наилучший единичный индекс степени, в которой данные нарушают нормальность?
- Или лучше говорить о множественных показателях нарушения нормальности (например, асимметрия, эксцесс, распространенность)?
- Как рассчитать доверительные интервалы (или, возможно, байесовский подход) для индекса?
- Какого рода словесные метки вы могли бы назначить точкам в этом индексе, чтобы указать степень нарушения нормальности (например, мягкий, умеренный, сильный, экстремальный и т. Д.)? Целью таких ярлыков может быть помощь аналитикам с меньшим опытом в обучении их интуиции, когда нарушения нормальности проблематичны.
Ответы:
А) Каков наилучший единичный индекс степени, в которой данные нарушают нормальность?
Б) Или просто лучше говорить о множественных показателях нарушения нормальности (например, асимметрия, эксцесс, распространенность)?
Я бы проголосовал за Б. Разные нарушения имеют разные последствия. Например, унимодальные, симметричные распределения с тяжелыми хвостами делают ваши CI очень широкими и, по-видимому, уменьшают способность обнаруживать любые эффекты. Однако среднее значение все еще достигает «типичного» значения. Для очень искаженных распределений, например, среднее значение может быть не очень разумным показателем «типичного значения».
C) Как можно рассчитать доверительные интервалы (или, возможно, байесовский подход) для индекса?
Я не знаю о байесовской статистике, но в отношении классического теста нормальности я хотел бы привести Erceg-Hurn et al. (2008) [2]:
D) Какие словесные метки вы могли бы присвоить точкам в этом индексе, чтобы указать степень нарушения нормальности (например, легкая, средняя, сильная, экстремальная и т. Д.)?
Micceri (1989) [1] провел анализ 440 крупномасштабных наборов данных в психологии. Он оценил симметрию и вес хвоста и определил критерии и метки. Метки асимметрии варьируются от «относительно симметричной» до «умеренной -> экстремальной -> экспоненциальной асимметрии». Метки для веса хвоста находятся в диапазоне от «Равномерно -> меньше, чем гауссово -> О гауссово -> Умеренно -> Экстремально -> Двойное экспоненциальное загрязнение». Каждая классификация основана на нескольких надежных критериях.
Он обнаружил, что из этих 440 наборов данных только 28% были относительно симметричными, и только 15% были примерно гауссовыми относительно веса хвоста. Поэтому хорошее название статьи:
Я написал
R
функцию, которая автоматически оценивает критерии Micceri, а также распечатывает этикетки:Вот тест для стандартного нормального распределения, с 8 df и log-normal:t
[1] Micceri, T. (1989). Единорог, нормальная кривая и другие невероятные существа. Психологический вестник, 105 , 156-166. DOI: 10,1037 / 0033-2909.105.1.156
[2] Эрцег-Херн Д.М., Миросевич В.М. (2008). Современные надежные статистические методы: простой способ максимизировать точность и эффективность ваших исследований. Американский психолог, 63 , 591-601.
источник