Порог для коэффициента корреляции, чтобы указать статистическую значимость корреляции в матрице корреляции

10

Я вычислил корреляционную матрицу набора данных, который содержит 455 точек данных, каждая точка данных содержит 14 характеристик. Таким образом, размерность корреляционной матрицы составляет 14 х 14.

Мне было интересно, есть ли порог для значения коэффициента корреляции, который указывает, что существует значительная корреляция между двумя из этих характеристик.

У меня есть значение в диапазоне от -0,2 до 0,85, и я думал, что важными являются те, которые выше 0,7.

  • Существует ли общее значение коэффициента корреляции, которое следует учитывать для порогового значения, или оно зависит только от контекста типа данных, которые я исследую?
Саймон
источник
1
Вы проверили stats.stackexchange.com/questions/5750/… ?
user603
@ user603 Хороший улов: это практически тот же вопрос. Нововведением здесь является вопрос о том, могут ли тесты на значительную корреляцию зависеть от «типа данных» (читай: распределение данных). Будем надеяться, что ответы сфокусированы на этом аспекте, а не на старом.
whuber

Ответы:

8

Тесты значимости для корреляций

Существуют тесты статистической значимости, которые могут применяться к отдельным корреляциям, которые указывают на вероятность получения корреляции, большей или большей, чем выборочная корреляция, предполагая, что нулевая гипотеза верна.

Ключевым моментом является то, что то, что составляет статистически значимый коэффициент корреляции, зависит от:

  • Размер выборки : большие размеры выборки приведут к меньшим порогам
  • альфа : часто устанавливается на 0,05, меньшие альфы приводят к более высоким порогам для статистической значимости
  • Односторонний / двусторонний тест : я предполагаю, что вы будете использовать двусторонний тест, так что это, вероятно, не имеет значения
  • тип коэффициента корреляции : я предполагаю, что вы используете Пирсона
  • Распределительные предположения х и у

В обычных обстоятельствах, когда альфа равна 0,05 с использованием двустороннего критерия с корреляцией Пирсона и где нормальность является по меньшей мере адекватным приближением, основным фактором, влияющим на отсечку, является размер выборки.

Порог важности

Другой способ интерпретации вашего вопроса - подумать о том, что вас интересует не то, является ли корреляция статистически значимой, а то, является ли она практически важной.

Некоторые исследователи предложили эмпирические правила для интерпретации значения коэффициентов корреляции, но эти эмпирические правила зависят от конкретной области.

Многозначное тестирование

К(К-1)/2К14(13)/2знак равно9191*+0,05знак равно4,55

Как указал @ user603, эти вопросы были хорошо обсуждены в этом предыдущем вопросе .

В целом, я считаю полезным при интерпретации корреляционной матрицы фокусироваться на структуре более высокого уровня. Это можно сделать неформальным способом, взглянув на общие закономерности в матрице корреляции. Это можно сделать более формально, используя такие методы, как PCA и факторный анализ. Такие подходы позволяют избежать многих проблем, связанных с многозначным тестированием.

Джером англим
источник
1

Одним из вариантов будет симуляция или тестирование перестановок. Если вы знаете распределение, из которого поступают ваши данные, вы можете смоделировать из этого распределения, но все наблюдения будут независимыми. Если вы не знаете распределение, то вы можете переставлять каждую из ваших переменных независимо друг от друга, и это даст вам одинаковое общее предельное распределение каждой переменной, но с любой удаленной корреляцией.

Сделайте любое из вышеперечисленного (сохраняя размер выборки и размеры матрицы одинаковыми) целую кучу раз (10000 или около того) и посмотрите на максимальную абсолютную корреляцию, или другой высокий квантиль, который может представлять интерес. Это даст вам распределение из нулевой гипотезы, с которой вы сможете сравнить максимум ваших фактических наблюдаемых корреляций (и других интересующих вас высоких квантилей).

Грег Сноу
источник
0

N-2Nсорр>>N-2

Hrobjartur
источник