Любимая поговорка многих статистиков гласит: «Корреляция не подразумевает причинно-следственную связь». Это, конечно, правда, но одна вещь, которая, похоже, здесь подразумевается, это то, что корреляция имеет мало или вообще не имеет значения. Это правда? Разве бесполезно знать, что две переменные коррелируют?
Я не могу себе представить, что это так. Я не очень знаком с прогностическим анализом, но кажется, что если он X
является предиктором Y
, он будет полезен для прогнозирования будущих значений на Y
основе X
, независимо от причинно-следственной связи.
Я неправильно вижу значение в корреляции? И если нет, то в каких ситуациях статистик или специалист по данным может использовать корреляцию без причинно-следственной связи?
correlation
predictive-models
causality
Indigenuity
источник
источник
Ответы:
Корреляция (или любая другая мера связи) полезна для прогнозирования независимо от причинно-следственной связи. Предположим, что вы измеряете четкую, устойчивую связь между двумя переменными. Это означает, что знание уровня одной переменной также предоставляет вам некоторую информацию о другой интересующей переменной, которую вы можете использовать, чтобы помочь предсказать одну переменную как функцию от другой и, что наиболее важно, предпринять некоторое действие на основе этого прогноза , Принятие мер подразумевает изменение одной или нескольких переменных, например, когда вы делаете автоматическую рекомендацию или используете какое-либо медицинское вмешательство. Конечно, вы могли бы делать более точные прогнозы и действовать более эффективно, если бы вы лучше понимали прямые или косвенные отношения между двумя переменными. Это понимание может включать другие переменные, в том числе пространственные и временные.
источник
A
является очень хорошим предиктором, очень заманчиво утверждать, что это также является причиной заболевания - и, как упоминалось в комментариях, очень легко прийти к неправильным выводам. Если мы хотим только делать прогнозы, например, сообщать, есть ли у пациента заболевание или нет, с корреляциями проблем нет.Здесь уже есть много хороших моментов. Позвольте мне распаковать ваше утверждение о том, что «кажется, что если
X
это предикторY
, это будет полезно для прогнозирования будущих значений наY
основеX
, независимо от причинности», немного. Вы правы: если все, что вы хотите - это иметь возможность предсказать неизвестноеY
значение из известногоX
значения и известного стабильного отношения, причинный статус этого отношения не имеет значения. Считают, что:источник
Они не обманывают важность корреляции. Просто тенденция состоит в том, чтобы интерпретировать корреляцию как причинно-следственную связь.
Возьмите грудное вскармливание как прекрасный пример. Матери почти всегда интерпретируют результаты (наблюдательных исследований) о грудном вскармливании как предположение о том, должны ли они на самом деле кормить грудью. Это правда, что в среднем дети, находящиеся на грудном вскармливании, имеют тенденцию быть более здоровыми по возрасту, даже после учета продольного материнского и отцовского возраста, социально-экономического статуса и т. Д. Это не означает, что только грудное вскармливание является причиной разницы, хотя это может частично играют роль в раннем развитии регуляции аппетита. Отношения очень сложны, и можно легко предположить целый ряд факторов, которые могут лежать в основе наблюдаемых различий.
Множество исследований ищут ассоциации, чтобы гарантировать более глубокое понимание того, что происходит. Корреляция не бесполезна, она всего лишь на несколько шагов ниже причинно-следственной связи, и необходимо помнить о том, как сообщать о результатах, чтобы предотвратить неверную интерпретацию со стороны неопытных.
источник
Вы правы, что корреляция полезна. Причина того, что причинно-следственные модели лучше, чем ассоциативные модели, заключается в том, что, как говорит Перл, они являются оракулами для вмешательств. Другими словами, они позволяют гипотетически рассуждать. Каузальная модель отвечает на вопрос: «Если бы я заставил Х случиться, что случилось бы с Y?»
Но вам не всегда нужно гипотетически рассуждать. Если ваша модель только будет использоваться , чтобы ответить на вопросы типа «если я наблюдаю X, что я знаю о Y?», Тогда ассоциативная модель все что вам нужно.
источник
Вы правы в том, что корреляция полезна для прогнозирования. Это также полезно для лучшего понимания изучаемой системы.
Один случай, когда необходимо знание о причинно-следственном механизме, - это если целевым распределением манипулировали (например, некоторые переменные были «вынуждены» принимать определенные значения). Модель, основанная только на корреляциях, будет работать плохо, в то время как модель, которая использует причинную информацию, должна работать намного лучше.
источник
Корреляция является полезным инструментом, если у вас есть базовая модель, объясняющая причинность.
Например, если вы знаете, что применение силы к объекту влияет на его движение, вы можете измерить соотношение между силой и скоростью и силой и ускорением. Более сильная корреляция (с ускорением) сама по себе будет объяснительной.
В обсервационных исследованиях корреляция может выявить некоторые общие закономерности (как заявлено, грудное вскармливание и позднее здоровье), которые могут дать основание для дальнейшего научного исследования через надлежащий экспериментальный план, который может подтвердить или отклонить причинно-следственную связь (например, возможно, вместо грудного вскармливания, являющегося причиной, по которой оно может быть). следствие для определенных культурных рамок).
Таким образом, корреляция может быть полезной, но она редко может быть убедительной.
источник
Как вы заявили, одна корреляция имеет много полезного, в основном прогнозирования.
Например, все эти исследования, показывающие, что интенсивное использование кофе в пожилых людей коррелирует с здоровее сердечно-сосудистой системы, на мой взгляд, несомненная мотивировано людей, желающих оправдать свои тяжелые привычки кофе. Однако то, что употребление кофе связано только с более здоровыми сердцами, а не с причинно-следственной связью, ничего не дает, чтобы ответить на наш реальный интересующий нас вопрос: станем ли мы здоровее, если будем пить больше кофе или урезать? Может быть очень неприятно находить очень интересные результаты (Кофе связан с более здоровыми сердцами!), Но не может использовать эту информацию для принятия решений (все еще не знаю, следует ли вам пить кофе, чтобы быть здоровее), и поэтому почти всегда есть искушение интерпретировать корреляцию как причинно-следственную связь.
Если, возможно, все, что вас волнует, это азартные игры (т.е. вы хотите предсказывать, но не влиять).
источник
В корреляции есть ценность, но нужно искать больше доказательств, чтобы сделать вывод о причинности.
Несколько лет назад было проведено исследование, в результате которого «кофе вызывает рак». Как только я услышал это в новостях, я сказал своей жене «ложная корреляция». Оказалось, я был прав. У населения 2-3 чашки кофе в день было больше курения, чем у тех, кто не пил кофе. Как только сборщики данных выяснили это, они отозвали свои результаты.
Еще одно интересное исследование, предшествовавшее жилищному буму и краху, показало расизм, когда дело дошло до обработки ипотеки. Утверждалось, что чернокожие заявители отклонялись с большей скоростью, чем белые. Но другое исследование смотрело на показатели по умолчанию. Черные домовладельцы дефолт с той же скоростью, что и белые. Если бы черные приложения придерживались более высокого стандарта, их уровень по умолчанию был бы намного ниже. Примечание: этот анекдот был опубликован автором Томасом Соуэллом в его книге «Жилищный бум и спад»
Интеллектуальный анализ данных может легко создать два набора данных, которые показывают высокую корреляцию, но для событий, которые не могут быть связаны. В конце концов, лучше всего взглянуть на исследования, которые отправлены вам очень критическим взглядом. Найти ложные корреляции не всегда легко, это приобретенный талант.
источник
Корреляция - это наблюдаемое явление. Вы можете измерить это. Вы можете действовать на эти измерения. Само по себе это может быть полезно.
Однако, если все у вас есть корреляция, у вас нет никакой гарантии , что изменение , которое вы делаете , будет фактически иметь эффект (см известные график связывая рост айфонов к заморскому рабству и такому). Это просто показывает, что существует корреляция, и если вы настроите окружение (действуя), эта корреляция все еще может быть.
Однако это очень тонкий подход. Во многих сценариях мы хотим иметь менее тонкий инструмент: причинность. Причинность - это корреляция в сочетании с утверждением о том, что, если вы настраиваете свое окружение, действуя тем или иным образом, следует ожидать, что корреляция все еще будет сохраняться. Это позволяет более долгосрочное планирование, такое как объединение 20 или 50 причинных событий подряд для определения полезного результата. Выполнение этого с 20 или 50 корреляциями часто оставляет очень размытый и мутный результат.
В качестве примера того, как они были полезны в прошлом, рассмотрим западную науку против традиционной китайской медицины (ТКМ). Западная наука в основном фокусируется на «разработке теории, выделении теста, который может продемонстрировать теорию, проведении теста и документировании результатов». Это начинается с «разработки теории», которая тесно связана с причинностью. TCM развернул его, начав с «разработки теста, который может дать полезные результаты, запуска теста, определения корреляций в ответе». Основное внимание уделяется корреляциям.
В наши дни жители Запада предпочитают мыслить почти полностью в терминах причинности, поэтому ценность изучения корреляции труднее шпионить. Тем не менее, мы находим его скрытым в каждом уголке нашей жизни. И никогда не забывайте, что даже в западной науке корреляции являются важным инструментом для определения того, какие теории стоит исследовать!
источник