Примеры для обучения: корреляция не означает причинно-следственную связь

74

Существует старая поговорка: «Соотношение не означает причинность». Когда я преподаю, я склонен использовать следующие стандартные примеры, чтобы проиллюстрировать этот момент:

  1. количество аистов и рождаемость в Дании;
  2. количество священников в Америке и алкоголизм;
  3. в начале 20-го века было отмечено, что существует сильная корреляция между «количеством радиоприемников» и «количеством людей в безумных приютах».
  4. и мой любимый: пираты вызывают глобальное потепление .

Тем не менее, у меня нет ссылок на эти примеры, и хотя они забавны, они явно ложны.

У кого-нибудь есть другие хорошие примеры?

csgillespie
источник
2
Пролистайте Freakonomics для некоторых замечательных примеров. Их библиография переполнена ссылками.
Стивен Тернер
17
xkcd.com/552
Ами
5
Эта диаграмма пиратов / глобального потепления явно составлена ​​теоретиками заговора - любой может увидеть, что они намеренно построили даже интервалы на неравные промежутки времени, чтобы избежать недавнего резкого повышения температуры, поскольку пираты почти полностью уничтожены. Все мы знаем, что с повышением температуры ром испаряется, и пираты не могут выжить в таких условиях. ;-)
AdamV
4
WTF с осью X на этом пиратском графике?
naught101
1
Или почти все, что вы положили в Google Correlate , иди к этому.
конъюнктура

Ответы:

39

Может быть полезно объяснить, что «причины» - это асимметричное отношение (X причин Y отличается от Y причин X), тогда как «связано с» - симметричное отношение.

Например, число бездомных и уровень преступности могут быть взаимосвязаны, так как оба имеют тенденцию быть высокими или низкими в одних и тех же местах. В равной степени справедливо сказать, что численность бездомных связана с уровнем преступности, а уровень преступности - с количеством бездомных. Сказать, что преступление является причиной бездомности, или что бездомное является преступлением, - это разные заявления. И корреляция не означает, что либо это правда. Например, основной причиной может быть третья переменная, такая как злоупотребление наркотиками или безработица.

Математика статистики не умеет выявлять основные причины, которые требуют какой-то другой формы суждения.

Павел
источник
3
Суждение - это хорошее слово, так как все, что мы можем наблюдать, это корреляция. Все, что могут сделать эксперименты и / или умные статистические данные, - это позволить нам исключить некоторые альтернативные объяснения того, что могло вызвать эффект.
Джонас
Очень хороший комментарий о симметричных / асимметричных отношениях. Можно также утверждать, что глобальное потепление приводит к росту пиратства.
Андре Хольцнер
27

Мои любимые:

1) Чем больше пожарных отправляют на огонь, тем больше наносится ущерба.

2) Дети, которые обучаются, получают худшие оценки, чем дети, которые не обучаются

и (это мой лучший)

3) В первые годы начальной школы астрологический знак коррелирует с IQ, но эта корреляция ослабевает с возрастом и исчезает в зрелом возрасте.

Питер Флом - Восстановить Монику
источник
2
(@xmjx Поставил первый пример в прошлом году.) Мне нравится пример астрологии.
whuber
Можете ли вы объяснить образец с астрологическим знаком, пожалуйста?
Евгений Дмитриевич Губенков
2
Неважно, я понял. Это связано с разницей в возрасте между рожденными в начале года и рожденными в конце. Приятно.
Евгений Дмитриевич Губенков
24

Мне всегда нравился этот:

лимоны против смертей

источник: http://pubs.acs.org/doi/abs/10.1021/ci700332k

оборота chrisamiller
источник
1
Хорошо, но я не вижу никого, кто бы пытался сделать вывод о причинности. Или мексиканские водители лимонов, как известно, опасны, когда они пересекают границу?
AdamV
2
Очевидно, непредвиденный побочный эффект от обилия лимонных законов в США. Например, смотрите: en.wikipedia.org/wiki/Lemon_law
Thylacoleo
11
Мой коллега посмотрел данные для этого за период после 2000 года и обнаружил, что отношения держались довольно хорошо «вне выборки», что еще более тревожно ...
Шаббычеф
Простое объяснение состоит в том, что оба уменьшаются со временем. Данные за 2000 год поддерживают это? PS, Box Hunter и Hunter (см. Ниже) объясняют пример аистов одинаково: оба увеличиваются со временем в течение рассматриваемого периода.
Эмиль Фридман
23
  1. Иногда корреляции достаточно. Например, в автомобильном страховании водители-мужчины связаны с большим количеством несчастных случаев, поэтому страховые компании взимают с них больше. Нет никакого способа проверить это на предмет причинности. Вы не можете изменить пол водителей экспериментально. Google заработал сотни миллиардов долларов, не заботясь о причинно-следственной связи.

  2. Чтобы найти причинно-следственную связь, вам обычно нужны экспериментальные данные, а не данные наблюдений. Хотя в экономике они часто используют наблюдаемые «шоки» системы для проверки причинности, например, если генеральный директор внезапно умирает и цена акций растет, вы можете предположить причинность.

  3. Корреляция является необходимым, но не достаточным условием причинности. Чтобы показать причинно-следственную связь, требуется контр-факт.

Нил Макгиган
источник
1
Мне нравится первый пример, который вы приводите. Это, безусловно, заставит студентов говорить;)
csgillespie
1
В своем блоге Стив Стейнберг ведет интересную дискуссию: blog.steinberg.org/?p=11 о некоторых значениях 1 и о том, к чему это может привести с точки зрения слабого ИИ.
Амос
Может ли кто-нибудь немного расширить последнее предложение?
naught101
4
Просто быстрое пояснение: корреляция не обязательна для причинно-следственной связи (в зависимости от того, что подразумевается под корреляцией): если корреляция - это линейная корреляция (что довольно много людей с небольшой статистикой примут по умолчанию при использовании термина), но причинно-следственная связь является нелинейным. Например, если в ( - 1 , 1 ) непосредственно вызывает Y (который принимает значения в ( 0 , 1 ) ), но Y = Икс(1,1)Y(0,1) . Если вИкс'sсимметрично распределены,XиYбудут коррелированыдаже если совершенно зависима. Yзнак равно1-Икс2Икс'sИксY
Glen_b
18

У меня есть несколько примеров, которые я люблю использовать.

  1. При расследовании причины преступления в Нью-Йорке в 80-х годах, когда они пытались навести порядок в городе, академик обнаружил сильную корреляцию между количеством совершенных серьезных преступлений и количеством мороженого, продаваемого уличными торговцами! (Что является причиной, а что является следствием?) Очевидно, что была ненаблюдаемая переменная, вызывающая оба. Лето - это когда преступность самая большая и когда продается больше всего мороженого.

  2. Размер вашей ладони отрицательно коррелирует с тем, как долго вы будете жить (правда!). На самом деле, женщины, как правило, имеют меньшие ладони и живут дольше.

  3. [Мой любимый] Я слышал об исследовании, которое несколько лет назад показало, что количество выпитого человеком напитка положительно коррелирует с вероятностью ожирения.(Я сказал себе - это имеет смысл, потому что это должно быть из-за людей, пьющих сладкую соду и получающих все эти пустые калории.) Через несколько дней появилось больше деталей. Почти вся корреляция была обусловлена ​​увеличением потребления диетических безалкогольных напитков. (Это подорвало мою теорию!) Итак, какова причина? Приводят ли диетические безалкогольные напитки к увеличению веса или увеличение веса вызывает увеличение потребления диетических безалкогольных напитков? (Прежде чем сделать вывод, что это последнее, посмотрите исследование, в котором контролируемые эксперименты с крысами показали, что группа, которой давали йогурт с искусственным подсластителем, набрала больше веса, чем группа, которой давали обычный йогурт.) Две ссылки: Пейте больше диетической соды , Набрать больше веса? ; Диетические газированные напитки, связанные с ожирением, Я думаю, что они все еще пытаются разобраться с этим.

whuber
источник
4
Последнее немного сложнее, чем вы представляете, но я согласен, что многие из наблюдательных ассоциаций, найденных между содой / диетической содой и ожирением, должны рассматриваться критически. Теоретически некоторые утверждают, что поддельные заменители сахара / жира имеют другие физиологические эффекты, помимо простого потребления калорий. Посмотрите, например, этот эксперимент на крысах и синтетических жирах (взято из блога Freakonomics).
Энди W
18

Количество Нобелевских премий, выигранных страной (с учетом населения), хорошо коррелирует с потреблением шоколада на душу населения. ( Медицинский журнал Новой Англии )

введите описание изображения здесь

Харви Мотульский
источник
2
+1 Я был очень разочарован NEJM, когда они опубликовали это
MattBagg
5
Кажется, также хорошо коррелирует с близостью к Швеции ..
naught101
2
Потребление шоколада (на душу населения) также значительно коррелирует с числом серийных убийц на душу населения. replicatedtypo.com/…
Харви Мотульский
2
Я спросил трех лауреатов Нобелевской премии, которых я (смутно) знаю, и все трое сказали, что съели намного больше шоколада, чем большинство их коллег. Конечно, эти ответы пришли после того, как они прочитали статью NEJM!
Харви Мотульский
4
@MattBagg Это было опубликовано как «Периодические заметки» и, очевидно, не следует воспринимать всерьез.
Паскаль
13

Хотя это скорее иллюстрация проблемы множественных сравнений, это также хороший пример неверно распределенной причины:

Регби (религия Уэльса) и его влияние на католическую церковь: стоит ли волноваться папе Бенедикту XVI?

«Каждый раз, когда Уэльс выигрывает турнир по регби, папа умирает, за исключением 1978 года, когда Уэльс был действительно хорош, и два папы умерли».

Саймон Бирн
источник
9

Там же два аспекта этой постфактум эрго propter специальной проблемы , которые я люблю , чтобы покрыть: (I) вскрывать причинно - следственную связь и (б) эндогенности

Пример «возможной» обратной причинно-следственной связи: социальное употребление алкоголя и заработок - пьющие зарабатывают больше денег, согласно Бетани Л. Питерс и Эдварду Стрингхэму (2006 год. «Не выпивай? Ты можешь проиграть: почему пьющие зарабатывают больше денег, чем неопытные», « Журнал труда»). Research, Transaction Publishers, том 27 (3), страницы 411-421, июнь). Или люди, которые зарабатывают больше денег, пьют больше либо потому, что имеют больший располагаемый доход, либо из-за стресса? Это отличная статья для обсуждения по разным причинам, включая ошибку измерения, смещение ответа, причинность и т. Д.

Пример «возможной» эндогенности. Уравнение Минсера объясняет логарифмическую доходность по образованию, опыту и опыту в квадрате. Существует много литературы на эту тему. Экономисты труда хотят оценить причинно-следственную связь образования с доходом, но, возможно, образование является эндогенным, поскольку «способность» может увеличить объем образования, которое имеет человек (за счет снижения стоимости его получения), и может привести к увеличению заработка независимо от уровень образования. Потенциальное решение этого может быть инструментальной переменной. Книга Ангриста и Пишке «В основном безвредная эконометрика» освещает это и очень подробно и ясно описывает темы.

Другие глупые примеры, которые я не поддерживаю, включают: - Количество телевизоров на душу населения и уровень смертности. Итак, давайте отправим телевизоры в развивающиеся страны. Очевидно, что оба являются эндогенными для чего-то вроде ВВП. - Количество нападений акул и продажи мороженого. Оба эндогенные к температуре, возможно?

Мне также нравится рассказывать ужасную шутку о сумасшедшем и пауке. Сумасшедший бродит по коридорам убежища с пауком, которого он несет в ладони. Он видит доктора и говорит: «Смотри, Док, я могу поговорить с пауками. Посмотри на это.» Паук, иди налево! »Паук должным образом двигается влево. Он продолжает:« Паук, иди направо. справа от его ладони. Доктор отвечает: «Интересно, может быть, мы должны поговорить об этом на следующем групповом занятии». Сумасшедшие реплики: «Это ничего, док. Понаблюдайте за этим. »Он тянет каждую ногу паука одну за другой, а затем кричит:« Паук, иди налево! »Паук неподвижно лежит на ладони, и сумасшедший поворачивается к доктору и делает вывод:« Если ты снимешь паука ноги он оглохнет ".

Грэм Куксон
источник
8

Лучшее, чему меня учили, было количество утоплений, и продажи мороженого могут быть сильно коррелированными, но это не означает, что одно вызывает другое. Потопление и продажи мороженого, очевидно, выше в летние месяцы, когда погода хорошая. Третья переменная, иначе хорошая погода, вызывает их.

TJM
источник
6

Как обобщение «пираты вызывают глобальное потепление»: выберите любые две величины, которые (монотонно) увеличиваются или уменьшаются со временем, и вы должны увидеть некоторую корреляцию.

Андре Хольцнер
источник
6

Вы можете потратить несколько минут на Google Correlate и придумать всевозможные ложные корреляции.

Zach
источник
1
Хотя эта ссылка может ответить на вопрос, лучше включить сюда основные части ответа и предоставить ссылку для справки. Ответы, содержащие только ссылки, могут стать недействительными, если связанная страница изменится.
gung - Восстановить Монику
1
@ gung ты серьезно? Ссылка на приложение, а не на простую страницу с описанием ответа. Ответ станет недействительным, если связанная страница все равно изменится, так как инструмент станет недоступным (в текущей форме).
Джером Баум
6

Я работаю со студентами, обучая соотношениям причинно-следственной связи на уроках алгебры Один. Мы рассмотрим множество возможных примеров. Мне показалась полезной статья «Связанные младенцы и опасное мороженое: корреляционные головоломки» от февральского учителя математики 2013 года. Мне нравится идея говорить о «скрывающихся переменных». Также этот мультфильм - симпатичный стартер беседы:

введите описание изображения здесь

Мы определяем независимую и зависимую переменную в карикатуре и говорим о том, является ли это примером причинности, если нет, то почему.

gung
источник
4

Я прочитал (давно) интересный пример снижения рождаемости (или коэффициента рождаемости, если вы предпочитаете эту меру), особенно в США, начиная с начала 1960-х годов, поскольку испытания ядерного оружия были на рекордно высоком уровне (в 1961 году самая большая из когда-либо взорвавшихся ядерных бомб была испытана в СССР). Цены продолжали снижаться до конца двадцатого века, когда большинство стран наконец прекратили это делать.

Я не могу найти ссылку, которая объединяет эти цифры сейчас, но в этой статье Википедии есть цифры по количеству испытаний ядерного оружия по странам.

Конечно, было бы разумнее взглянуть на соотношение рождаемости с введением и легализацией противозачаточных таблеток «по совпадению», начиная с начала 1960-х годов. (Сначала только в некоторых штатах, затем во всех штатах только для замужних женщин, затем в некоторых для незамужних, а затем по всем направлениям), но даже это могло быть только частью причины; множество других аспектов равенства, экономических изменений и других факторов играют важную роль.

AdamV
источник
Интересный пример, потому что на первый взгляд он выглядит как вероятная причинно-следственная связь, в отличие от многих из самых глупых примеров.
Боссыкена
1
Что мне нравится, так это то, что вы можете спровоцировать много дискуссий о том, должен ли «эффект» фактически повлиять на фертильность (в медицинском смысле способности зачать ребенка) или это было социально («Я не хочу приводить ребенка в такое плохое состояние»). Мир"). Затем бросьте бомбу о Пилюлю, если никто другой не поднял ее. А затем укажите, что даже это может быть только одним из возможных факторов, и обсудите некоторые другие.
AdamV
4

Корреляция сама по себе никогда не сможет установить причинную связь. Дэвид Юм (1771-1776) весьма эффективно доказывал, что мы не можем получить определенные знания о причинности чисто эмпирическими средствами. Кант попытался решить эту проблему, страница Википедии для Канта, кажется, довольно неплохо подытожила:

Кант считал, что создает компромисс между эмпириками и рационалистами. Эмпирики полагали, что знания приобретаются только на основе опыта, но рационалисты утверждали, что такие знания открыты для картезианских сомнений и что только один разум дает нам знания. Кант, однако, утверждает, что использование разума без применения его к опыту приведет только к иллюзиям, в то время как опыт будет чисто субъективным, не будучи сначала отнесенным к чистому разуму.

Другими словами, Юм говорит нам, что мы никогда не узнаем, что причинно-следственная связь существует, просто наблюдая корреляцию, но Кант полагает, что мы можем использовать наш разум, чтобы различать корреляции, которые подразумевают причинную связь, от тех, кто этого не делает. Я не думаю, что Юм был бы не согласен, если бы Кант писал с точки зрения правдоподобия, а не определенного знания.

Короче говоря, корреляция предоставляет косвенные доказательства, подразумевающие причинно-следственную связь, но вес доказательств сильно зависит от конкретных обстоятельств, и мы никогда не можем быть абсолютно уверены. Способность предсказать последствия вмешательств является одним из способов обрести уверенность (мы не можем ничего доказать, но мы можем опровергнуть это с помощью наблюдательных данных, поэтому мы хотя бы попытались фальсифицировать теорию причинно-следственной связи). Наличие простой модели, которая объясняет, почему мы должны наблюдать корреляцию, которая также объясняет другие формы доказательств, является еще одним способом применения наших рассуждений, как предлагает Кант.

Будьте бдительны: вполне возможно, что я неправильно понял философию, однако остается тот случай, когда корреляция никогда не может служить доказательством причинно-следственной связи.

Дикран Сумчатый
источник
2
Для чего бы это ни стоило, в современной терминологии я думаю, что следует читать Канта как утверждающего, например, во Второй аналогии, что независимо от того, какие корреляции вы наблюдаете, существует какой-то причинный граф, генерирующий их. Насколько мне известно, у него не было конкретного метода идентификации структуры, но он предполагал, что она должна быть полностью связана (потому что «каждое событие имеет причину»). В этом смысле он современен: причинный вывод требует сочетания причинных предположений, например, выраженных с помощью графика, и наблюдаемых закономерностей в данных. И вы не можете , как правило , ни избежать , первую часть и не вызывать его из данных
conjugateprior
+1 хорошо объяснил! Может быть , я слишком байесовский, но я не слишком беспокоили с идеей , что мы не можем иметь не определенное знание любой причинно - следственной связи.
Дикран Сумчатый
3

Количество сперматозоидов у самцов в словенских деревнях и количество медведей (также в Словении) показывают отрицательную корреляцию. Некоторые люди находят это очень тревожным. Я постараюсь получить исследование, которое сделало это.

Роман Луштрик
источник
3

Недавно я был на конференции, и один из докладчиков привел этот очень интересный пример (хотя цель состояла в том, чтобы проиллюстрировать что-то еще):

  • Американцы и англичане едят много жирной пищи. Существует высокий уровень сердечно-сосудистых заболеваний в США и Великобритании.

  • Французы едят много жирной пищи, но у них низкий уровень сердечно-сосудистых заболеваний.

  • Американцы и англичане пьют много алкоголя. Существует высокий уровень сердечно-сосудистых заболеваний в США и Великобритании.

  • Итальянцы пьют много алкоголя, но, опять же, у них низкий уровень сердечно-сосудистых заболеваний.

Вывод? Ешь и пей, что хочешь. И у вас больше шансов получить сердечный приступ, если вы говорите по-английски!

Nico
источник
3
Это также хороший пример экологической ошибки (т. Е. Вывод об индивидуальном уровне на основе данных на уровне группы).
Джером Энглим
3

введите описание изображения здесь

Этот мультфильм из XKCD также размещен в другом месте на CrossValidated.

Харви Мотульский
источник
3

Другим примером корреляции, который я использовал, является значительное увеличение числа людей, употребляющих органические продукты питания, и увеличение числа детей, у которых диагностирован аутизм в США. В сети есть график пародии - аутизм органическая еда пародия граф

user61177
источник
3

http://tylervigen.com/

Это показывает массу корреляций, которые, очевидно, не имеют никакого отношения к причинно-следственной связи. Или у вас есть какая-то хорошая идея, что причинно-следственная связь между возрастом Мисс Америка и убийствами связана с паром, горячими парами и горячими предметами?

??

xyz
источник
2

Преподавание «Корреляция не означает причинность» на самом деле никому не помогает, потому что в конце концов все дедуктивные аргументы частично основаны на корреляции.

Человек очень плохо умеет что-то делать.

Скорее, цель должна быть конструктивной: всегда думайте об альтернативах исходным предположениям, которые могут дать одни и те же данные.

Кристиан
источник
1
Это не отвечает на вопрос: возможно, это следует понимать как комментарий.
whuber
2

Ну, мой профессор использовал их во вводном классе вероятности:

1) Размер обуви соотносится с умением читать

2) Атака акулы связана с продажей мороженого.

Shrey
источник
2

Чем больше пожарных машин отправлено в огонь, тем больше урон.

xmjx
источник
1
Единственная проблема с этим в качестве примера заключается в том, что существует явная обратная причина.
naught101
1

Я думаю, что лучшей парадигмой может быть причинность, требующая корреляции, связанной с надежным и предпочтительно проверенным механизмом. Я думаю, что слово «подразумевать» следует использовать в этом контексте очень экономно, поскольку оно имеет несколько значений, в том числе и «внушение».

Роберт Джонс
источник
1

Пример аистов приведен на странице 8 первого издания (1978 г.) книги Бокса, «Охотник и охотник», озаглавленной «Статистика для экспериментаторов ...» (Wiley). Я не знаю, во втором ли это. Они идентифицируют город как Ольденбург и период времени как 1930-1936.

Они ссылаются на Ornithologische Monatsberichte , 44 , № 2, Jahrgang, 1936, Berlin, и 48 , No 1, Jahrgang, 1940, Berlin, и Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.

Эмиль Фридман
источник
0

Я видел забавный в статье.

Производство масла в Бангладеш имеет одну из самых высоких корреляций с S & P 500 за десятилетний период.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-themselves-the-economic-indicator-in-your-pants/

Это
источник
2
А? График показывает S & P с течением времени. Название говорит о производстве масла и сыра, которые не видны на графике. ???
Харви Мотульский
3
Хорошо, теперь я вижу. График показывает прогноз модели множественной регрессии, показывая, что включение трех глупых переменных делает довольно хорошую работу, заставляя модель прогнозировать изменения в SP500 с течением времени. Это хороший пример перенастройки в множественной регрессии, и косвенно показывает, что корреляция (или улучшение соответствия модели причудливой модели) не подразумевает причинно-следственную связь.
Харви Мотульский
0

Вот идеальный. И, к сожалению, его можно использовать в качестве отличного учебного материала, потому что ни сотрудники «Вашингтон пост», ни Центры по контролю и профилактике заболеваний не демонстрируют никаких знаний о том, что эта статья должна быть сатирической в ​​«Луке».

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837

Марк С.
источник
3
Пожалуйста, суммируйте то, что сказано за ссылкой, а не только то, что вы считаете, что это неправильно.
cbeleites
Сожалею. Но я думал, что это само за себя.
Марк С.
2
Ссылка хороша как ссылка на источник, но вы не должны предполагать, что каждый может ее прочитать (или не без особых хлопот). Пожалуйста, имейте в виду: такие ссылки очень сильно подвержены гниению ссылок, и не все газеты обслуживают все географические регионы (например, есть газеты в США, которые решили, что соблюдение EUP GDPR не стоит беспокоить, и, следовательно, будут блокировать читателей с помощью IP-адресов ЕС адрес).
cbeleites
-2

Кто-то сказал, корреляция может не означать причинно-следственную связь, но это, безусловно, может быть хорошим намеком :)

Хорошо, оставляя в стороне самое интересное, что именно является причиной? Действительно ли мы уверены, что пираты не вызывают глобального потепления?

Противо-интуитивно, но что понимается как причина, а что как следствие (в исследовании корреляции не так ясно). Конечно, много раз оба могут быть просто следствием общей причины (и, следовательно, коррелировать)

Все сводится к методу определения причинно-следственной связи.

Это причина (каламбур) высказывания:

Есть мелкая ложь. Есть большая ложь И есть статистика.

Никос М.
источник