Я понимаю, что корреляция - это не причинно-следственная связь . Предположим, мы получаем высокую корреляцию между двумя переменными. Как вы проверяете, действительно ли эта корреляция вызвана причинностью? Или, в каких именно условиях мы можем использовать экспериментальные данные для определения причинно-следственной связи между двумя или более переменными?
correlation
mathematical-statistics
causality
Маниш Барнвал
источник
источник
X
иY
выберите тот, который является причиной другого, который минимизирует чувство ответственности и максимизирует чувство судьбы.Ответы:
Очень вероятная причина корреляции двух переменных заключается в том, что их изменения связаны с третьей переменной. Другими вероятными причинами являются случайность (если вы протестируете достаточно некоррелированных переменных для корреляции, некоторые из них покажут корреляцию), или очень сложные механизмы, включающие несколько этапов.
Смотрите http://tylervigen.com/ для примеров, как это:
Чтобы уверенно утверждать, что причина A -> B, вам нужен эксперимент, в котором вы можете контролировать переменную A и не влиять на другие переменные. Затем вы измеряете, если корреляция A и B все еще существует, если вы измените свою переменную.
Почти во всех практических приложениях практически невозможно также не влиять на другие (часто неизвестные) переменные, поэтому лучшее, что мы можем сделать, - это доказать отсутствие причинности.
Чтобы иметь возможность сформулировать причинно-следственную связь, вы начинаете с гипотезы о том, что 2 переменные имеют причинно-следственную связь, используете эксперимент, чтобы опровергнуть гипотезу, и, если вы ошибаетесь, вы можете с определенной степенью уверенности утверждать, что гипотеза верна. Насколько высока степень вашей уверенности, зависит от вашей области исследований.
Во многих областях обычно или необходимо запускать две части эксперимента параллельно, одну, где изменяется переменная A, и контрольную группу, где переменная A не изменяется, но в остальном эксперимент точно такой же - например, в случае лекарство вы все равно засовываете предметы иглой или заставляете их глотать таблетки. Если эксперимент показывает корреляцию между A и B, но не между A и B '(B контрольной группы), вы можете предположить причинно-следственную связь.
Есть и другие способы сделать вывод о причинно-следственной связи, если эксперимент либо невозможен, либо нежелателен по различным причинам (мораль, этика, PR, стоимость, время). Одним из распространенных способов является использование вычета. Возьмем пример из комментария: чтобы доказать, что курение вызывает рак у людей, мы можем использовать эксперимент, чтобы доказать, что курение вызывает рак у мышей, а затем доказать, что существует взаимосвязь между курением и раком у людей, и сделать вывод, что, следовательно, это чрезвычайно Вероятно, что курение вызывает рак у людей - это доказательство может быть усилено, если мы также опровергаем, что рак вызывает курение. Другим способом сделать вывод о причинности является исключение других причин корреляции, оставляя причинность как лучшее оставшееся объяснение корреляции - этот метод не всегда применим, потому что иногда невозможно устранить все возможные причины корреляции (так называемые «задние пути» в другом ответе). В примере с курением / раком мы, вероятно, могли бы использовать этот подход, чтобы доказать, что курение несет ответственность за смолу в легких, потому что для этого не так много возможных источников.
Эти другие способы «доказательства» причинности не всегда идеальны с научной точки зрения, потому что они не так убедительны, как более простой эксперимент. Дискуссия о глобальном потеплении является отличным примером, показывающим, как намного легче отклонить причинно-следственную связь, которая еще не была окончательно доказана с помощью повторяемого эксперимента.
Для облегчения комиксов, вот пример эксперимента, который технически правдоподобен, но не рекомендуется из-за ненаучных причин (мораль, этика, PR, стоимость):
источник
Независимо от того, является ли проект экспериментальным или наблюдательным, связь между переменной A и результатом Y отражает причинно-следственную связь между A и Y, если между A и Y нет открытых проходов.
В экспериментальной схеме это легче всего достигается путем рандомизации воздействия или назначения лечения. За исключением идеальной рандомизации, эффект ассоциативного лечения представляет собой объективную оценку эффекта причинного лечения при допущениях об обмене (назначение лечения не зависит от контр-фактических результатов), позитивности и т. Д ...
Ссылки
Эрнан, Робинс. Причинный вывод
Жемчужина. Причинный вывод в статистике: обзор
PS Для получения дополнительной информации по этой теме вы можете зайти в Google по поводу причинно-следственной связи и следующих имен (для начала): Иудея Перл, Дональд Рубин, Мигуил Эрнан.
источник
Рассмотрим увеличение числа разводов, связанное с увеличением доходов адвоката.
Интуитивно кажется очевидным, что эти показатели должны быть соотнесены. Чем больше пар (спрос) подают для большего количества разводов, тем больше юристов (предложение) повышают свои цены.
Похоже, что увеличение числа разводов приводит к увеличению доходов адвокатов, поскольку дополнительный спрос со стороны пар заставил адвокатов поднять цены.
Или это назад? Что, если адвокаты намеренно и независимо подняли цены, а затем потратили свой новый доход на рекламу развода? Это также кажется правдоподобным объяснением.
Этот сценарий иллюстрирует произвольное количество третьих, объясняющих переменных, которые может демонстрировать статистический анализ. Учтите следующее:
У вас есть загадка. Вы не можете измерить каждую точку данных, если вы хотите оправдать игнорирование необъяснимых точек данных, вам нужно измерить их. (Вы можете исключить некоторые точки данных, не измеряя их, но вы должны по крайней мере оправдать их.)
Никакое доказательство причинности не может быть правильным в неограниченной системе.
источник
Если A и B коррелируют, и после того, как вы исключили совпадение, наиболее вероятно, что либо A вызывает B, либо B вызывает A, либо некоторая неизвестная причина X вызывает как A, так и B.
Первым шагом будет изучение возможного механизма. Не могли бы вы подумать о том, как А может привести к В, или наоборот, или какая другая причина X может вызвать и то и другое? (Это предполагает, что это обследование дешевле, чем проведение эксперимента, пытающегося доказать причину). Мы надеемся, что вы окажетесь в положении, когда эксперимент, показывающий причинность, выглядит стоящим Вы можете продолжить, если не можете придумать механизм (A вызывает B, но мы не знаем, почему это возможно).
В этом эксперименте вы должны иметь возможность манипулировать предполагаемой причиной по желанию (например, если причиной является «прием таблетки А», то некоторые люди получат таблетку, а другие - нет). Затем вы принимаете обычные меры предосторожности, выбирая людей, получающих или не получающих таблетки наугад, при этом ни вы, ни те, кто проходил тестирование, не знают, кто получил таблетку, а кто - нет. Вы также пытаетесь сохранить равные значения в остальной части эксперимента (раздача таблетки А людям в хорошей теплой комнате с солнечными лучами, проникающими через окно, в то время как другая группа получает поддельную таблетку в грязной, неудобной комнате, это может повлиять на ваши данные). Так что, если вы пришли к выводу, что единственная разница заключается в том, что таблетка и причиной получения или не получения таблетки было случайное решение, которое не повлияло ни на что другое,
источник
Интервенционные (экспериментальные) данные, описанные Гнашером и Питером, являются наиболее простым способом обоснования причинно-следственных связей. Однако только в ответе Эша упоминается возможность определения причинно-следственной связи с помощью данных наблюдений. В дополнение к заднему методу, который он упоминает, метод парадной двери является еще одним способом установления причинности на основе данных наблюдений и некоторых причинных предположений. Они были обнаружены Иудеей Перл. Я попытался обобщить и дать ссылку на них здесь .
источник
Чтобы сделать причинное утверждение, вам нужно иметь и случайную выборку, и случайное назначение
Таким образом, при выборе лечения и контрольной группы из вышеупомянутой выборочной группы, равное количество людей с похожим признаком должно быть как в группе лечения, так и в контрольной группе.
Группа лечения - это группа, в которой лекарство предоставляется людям. Контрольная группа является группой , в которой лекарство не дано. Вы также можете определить группу плацебо, в которой пациентам не дают лекарства, а говорят, что им дают.
Наконец, если эффекты видны в группе лечения, но не в контрольной группе, то мы можем установить причинность.
источник