Я вычислил корреляционную матрицу набора данных, который содержит 455 точек данных, каждая точка данных содержит 14 характеристик. Таким образом, размерность корреляционной матрицы составляет 14 х 14.
Мне было интересно, есть ли порог для значения коэффициента корреляции, который указывает, что существует значительная корреляция между двумя из этих характеристик.
У меня есть значение в диапазоне от -0,2 до 0,85, и я думал, что важными являются те, которые выше 0,7.
- Существует ли общее значение коэффициента корреляции, которое следует учитывать для порогового значения, или оно зависит только от контекста типа данных, которые я исследую?
Ответы:
Тесты значимости для корреляций
Существуют тесты статистической значимости, которые могут применяться к отдельным корреляциям, которые указывают на вероятность получения корреляции, большей или большей, чем выборочная корреляция, предполагая, что нулевая гипотеза верна.
Ключевым моментом является то, что то, что составляет статистически значимый коэффициент корреляции, зависит от:
В обычных обстоятельствах, когда альфа равна 0,05 с использованием двустороннего критерия с корреляцией Пирсона и где нормальность является по меньшей мере адекватным приближением, основным фактором, влияющим на отсечку, является размер выборки.
cor.test
рассчитаем статистическую значимость корреляции в RПорог важности
Другой способ интерпретации вашего вопроса - подумать о том, что вас интересует не то, является ли корреляция статистически значимой, а то, является ли она практически важной.
Некоторые исследователи предложили эмпирические правила для интерпретации значения коэффициентов корреляции, но эти эмпирические правила зависят от конкретной области.
Многозначное тестирование
Как указал @ user603, эти вопросы были хорошо обсуждены в этом предыдущем вопросе .
В целом, я считаю полезным при интерпретации корреляционной матрицы фокусироваться на структуре более высокого уровня. Это можно сделать неформальным способом, взглянув на общие закономерности в матрице корреляции. Это можно сделать более формально, используя такие методы, как PCA и факторный анализ. Такие подходы позволяют избежать многих проблем, связанных с многозначным тестированием.
источник
Одним из вариантов будет симуляция или тестирование перестановок. Если вы знаете распределение, из которого поступают ваши данные, вы можете смоделировать из этого распределения, но все наблюдения будут независимыми. Если вы не знаете распределение, то вы можете переставлять каждую из ваших переменных независимо друг от друга, и это даст вам одинаковое общее предельное распределение каждой переменной, но с любой удаленной корреляцией.
Сделайте любое из вышеперечисленного (сохраняя размер выборки и размеры матрицы одинаковыми) целую кучу раз (10000 или около того) и посмотрите на максимальную абсолютную корреляцию, или другой высокий квантиль, который может представлять интерес. Это даст вам распределение из нулевой гипотезы, с которой вы сможете сравнить максимум ваших фактических наблюдаемых корреляций (и других интересующих вас высоких квантилей).
источник
источник