У меня есть набор данных с зависимой и независимой переменной. Оба не временные ряды. У меня 120 наблюдений. Коэффициент корреляции составляет 0,43.
После этого расчета я добавил столбец для обеих переменных со средним значением для каждых 12 наблюдений, в результате чего появилось 2 новых столбца с 108 наблюдениями (парами). Коэффициент корреляции этих столбцов составляет 0,77.
Кажется, я улучшил корреляцию таким образом. Это разрешено делать? Увеличил ли я силу объяснения независимой переменной, используя средние значения?
regression
correlation
mean
predictor
cross-section
user2165379
источник
источник
Ответы:
Давайте посмотрим на два вектора, первый из которых
и второй вектор
Вычислив корреляцию Пирсона, вы получите
Однако, если вы берете среднее значение последовательных пар для значений, оба вектора идентичны. Одинаковые векторы имеют корреляцию 1.
Этот простой пример иллюстрирует обратную сторону вашего метода.
Изменить : Чтобы объяснить это в более общем виде: Коэффициент корреляции рассчитывается следующим образом.
Усреднение некоторых значений и изменяет разницу между и а также разницу между и .Y X μ X Y μ YX Y X μX Y μY
источник
Усреднение может быть привлекательным или удобным. Это может также быть источником обмана, в худшем случае обмана, поэтому действуйте осторожно, даже когда есть четкое обоснование для усреднения.
Вот ситуация, которая не очень хорошая идея. Учтите, что при тщательном определении групп вы (как правило) можете сократить свои данные до двух итоговых точек, каждая из которых отличается от двух переменных; и тогда вы достигнете идеальной корреляции с величиной . Поздравляю или нет! Улучшение здесь является фиктивным без уважительной причины для процедуры. Вам не нужно подходить к этому крайнему случаю, чтобы приблизиться к опасности.1
В некоторых ситуациях усреднение может иметь смысл. Например, если сезонные колебания малоинтересны или не представляют интереса, то усреднение по годовым значениям создает сокращенный набор данных, в котором вы можете сосредоточиться на этих годовых значениях.
В различных областях исследователи могут быть заинтересованы в корреляции в совершенно разных масштабах, например, между безработицей и преступностью для отдельных лиц, округов, штатов, стран (замените те термины, которые имеют больше смысла).
Интерес, а зачастую и основной источник проблем с выводом, заключается в интерпретации происходящего на разных уровнях или уровнях. Например, высокая корреляция между уровнем безработицы и уровнем преступности для районов не обязательно означает, что безработные имеют более высокую склонность быть преступниками; вам нужны данные о людях, чтобы иметь четкое представление об этом. Предоставление данных может быть максимально затруднительным, поскольку данные доступны только в наименее интересном масштабе, возможно, из соображений экономии или конфиденциальности.
Отмечу также, что многие измерения, в первую очередь, часто усредняются в течение небольших временных интервалов и / или небольших пространственных интервалов, поэтому данные часто поступают усредненными в любом случае.
источник