Можно ли использовать перекрестную проверку для причинного вывода?

37

Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными?

В то время как эта статья Ричарда Берк демонстрирует использование выборки с задержкой для выбора параметров в «окончательной» регрессионной модели (и демонстрирует, почему пошаговый выбор параметров не является хорошей идеей), я все еще не понимаю, как это точно обеспечивает непредвзятые оценки влияния X оказывают на Y больше, чем выбор модели, основанной на логике и предшествующем знании предмета.

Я прошу, чтобы люди приводили примеры, в которых один из них использовал протяженный образец, чтобы помочь в причинном выводе, или общие очерки, которые могут помочь моему пониманию. Я также не сомневаюсь, что моя концепция перекрестной проверки наивна, и так, если это так сказать. Кажется, что неосторожное использование отсроченного образца поддается причинно-следственной связи, но я не знаю ни одной работы, которая делает это или как они это сделали бы.

Цитата для Berk Paper:

Статистический вывод после выбора модели : Ричард Берк, Лоуренс Браун, Линда Чжао Журнал количественной криминологии, Vol. 26, № 2. (1 июня 2010 г.), с. 217-236.

PDF версия здесь

Этот вопрос об исследовательском анализе данных в малых выборочных исследованиях ХЛ вызвал этот вопрос.

Энди У
источник

Ответы:

19

Я думаю, что полезно рассмотреть то, что мы знаем о перекрестной проверке. Статистические результаты вокруг CV делятся на два класса: эффективность и согласованность.

Эффективность - это то, чем мы обычно занимаемся при построении прогностических моделей. Идея состоит в том, что мы используем CV для определения модели с асимметричными гарантиями относительно функции потерь. Самый известный результат , достигнутый здесь, связан с Stone 1977 и показывает, что LOO CV асимптотически эквивалентна AIC. Но Бретт предоставляет хороший пример, где вы можете найти прогнозную модель, которая не информирует вас о причинном механизме.

Последовательность - это то, что нас беспокоит, если наша цель - найти «истинную» модель. Идея состоит в том, что мы используем CV для определения модели с асимптотическими гарантиями, что, учитывая, что наше модельное пространство включает в себя истинную модель, мы обнаружим ее с достаточно большой выборкой. Самый известный результат здесь связан с Шао 1993 года, касающимся линейных моделей, но, как он заявляет в своем резюме, его «шокирующее открытие» противоположно результату для LOO. Для линейных моделей вы можете достичь согласованности, используя LKO CV, пока при n . Помимо линейных mdoels, сложнее получить статистические результаты. k/n1n

Но предположим, что вы можете соответствовать критериям согласованности, и ваша процедура CV приводит к истинной модели: . Что мы узнали о причинном механизме? Мы просто знаем, что существует четкая корреляция между Y и X , которая мало говорит о причинно-следственных связях. С традиционной точки зрения, вам нужно ввести экспериментальный дизайн с механизмом управления / манипуляции, чтобы сделать причинные претензии. С точки зрения структуры Иудеи Перл, вы можете воплотить причинно-следственные предположения в структурную модель и использовать основанное на вероятности исчисление контрфактуальностей, чтобы получить некоторые утверждения, но вам нужно будет удовлетворить определенные свойства . Y=βX+eYX

Возможно, вы могли бы сказать, что CV может помочь с выводом причинно-следственной связи путем определения истинной модели (при условии, что вы можете соответствовать критериям согласованности!). Но это только дает вам так далеко; Сам по себе CV не выполняет никакой работы ни в рамках причинного вывода.

Если вам интересно узнать, что мы можем сказать с помощью перекрестной проверки, я бы порекомендовал Shao 1997 вместо широко цитируемой статьи 1993 года:

Вы можете просмотреть основные результаты, но интересно прочитать следующее обсуждение. Я думал, что комментарии Рао и Тибширани и Стоуна были особенно проницательными. Но обратите внимание, что, хотя они обсуждают последовательность, никаких претензий в отношении причинности не предъявляется.

АРС
источник
Спасибо за все ссылки, особенно ответы Иудеи Перл (мне нужно будет купить книгу на основе всей замечательной информации в этих коротких ответных эссе.)
Энди W
1
Комментарии для downvote всегда приветствуются!
chl
18

Это действительно интересный вопрос, и я не предлагаю конкретных ссылок. Однако в целом, я бы сказал, НЕТ, сама по себе перекрестная проверка не дает никакого представления о причинно-следственной связи. В отсутствие запланированного эксперимента проблема причинности всегда остается неопределенной. Как вы предлагаете, перекрестная проверка может и улучшит точность прогнозирования. Это само по себе ничего не говорит о причинности.

В отсутствие запланированного эксперимента для причинного вывода потребовалась бы модель, которая включала бы все соответствующие предикторы - что мы редко можем гарантировать в наблюдательном исследовании. Более того, простая переменная лага, например (или что-либо, что сильно коррелирует с тем результатом, который мы пытались предсказать), дала бы хорошую модель, которую можно было бы проверить в нескольких выборках. Это не означает, однако, что мы можем сделать вывод о причинно-следственной связи. Перекрестная проверка обеспечивает повторяемость прогнозов и ничего более. Причинность - это вопрос дизайна и логики.

РЕДАКТИРОВАТЬ: Вот пример для иллюстрации. Я мог бы построить модель с хорошей точностью прогнозирования, которая прогнозирует население города на основе суммы денег, которую город тратит на вывоз мусора. Я мог бы использовать перекрестную проверку для проверки точности этой модели, а также другие методы, чтобы улучшить точность прогнозирования и получить более стабильные параметры. Теперь, хотя эта модель отлично подходит для прогнозирования, причинная логика неверна - причинное направление меняется на противоположное. Независимо от того, о чем могут спорить ребята из Департамента общественных работ, увеличение их бюджета на вывоз мусора не будет хорошей стратегией для увеличения населения города (причинная интерпретация).

Вопросы точности и повторяемости модели отделены от нашей способности делать причинные выводы о наблюдаемых нами отношениях. Перекрестная проверка помогает нам с первым, а не с последним. Теперь, если мы оцениваем «правильную» модель с точки зрения определения случайных отношений (например, пытаясь определить, какой наш бюджет на удаление мусора должен быть основан на нашем ожидаемом населении в следующем году), перекрестная проверка может помочь нам получить большую уверенность в нашей оценке этого эффекта. Однако перекрестная проверка не помогает нам выбрать «правильную» модель в отношении причинно-следственных связей. Опять же, здесь мы должны полагаться на дизайн исследования, нашу экспертизу предмета, теорию и логику.

Brett
источник
1
Таким образом, вы не думаете, что повторяемость в оценках эффекта может быть полезной? Хотя вы не одиноки в своем представлении о том, что является доказательством причинности, я думаю, что оно довольно узкое. Мы никогда не сможем до бесконечности доказать причинно-следственную связь, даже с помощью эксперимента, при отсутствии всех доказательств во вселенной. Следовательно, на мой взгляд, цель состоит в том, чтобы предоставить доказательства того, что любые отношения, которые мы оцениваем, максимально приближены к истине, учитывая информацию, которую мы знаем. Учитывая то, что вы не думаете, что повторяемость в прогнозировании от обучающей выборки к выборке с выдержкой может быть полезной проверкой сделанных выводов?
Энди W
Я также ценю ваши комментарии и полностью согласен с тем, что выводы сильно зависят от логики и дизайна исследования.
Энди W
1
Энди, я отредактировал свой пост, чтобы ответить на ваши комментарии. Кроме того, я не имею в виду, что причинный вывод не может быть сделан вне контекста спланированного эксперимента. Тем не менее, это более сложно и менее определенно в наблюдательных исследованиях, и мы не должны искать процедуры построения моделей, чтобы помочь нам с этой проблемой. Скорее, мы должны попытаться лучше понять проблемы, для которых мы пытаемся понять причинно-следственные связи.
Бретт
Я согласен почти со всем, что вы говорите, за исключением того, что вопросы точности и повторяемости необходимы для правильных выводов перед лицом сомнений. Я могу дать экспертам преимущество в том, что они строят логические модели. Меня беспокоит повторяемость результатов во многих наблюдательных контекстах. Хотя я согласен, что повторяемость не обязательно учитывает смешанные влияния, с которыми лучше всего справляться в экспериментальных условиях.
Энди W
(+1) Мои извинения. Кажется, я также забыл высказать ваш очень хороший ответ. Уже проголосовали за ваши полезные комментарии.
ЧЛ
13

Мне кажется, что ваш вопрос в более общем плане касается другого вида валидации для прогнозирующей модели: перекрестная валидация в некоторой степени связана с внутренней валидностью или, по крайней мере, с начальной стадией моделирования, тогда как рисование причинно-следственных связей в более широкой популяции более связано к внешней действительности, Под этим (и в качестве обновления после замечательного замечания @ Бретта) я подразумеваю, что мы обычно строим модель на рабочей выборке, предполагая гипотетическую концептуальную модель (то есть мы определяем отношения между предикторами и интересующими их результатами), и мы пытаемся получить надежные оценки с минимальной частотой ошибок классификации или минимальной ошибкой прогнозирования. Надеемся, что чем лучше будет работать модель, тем лучше она позволит нам прогнозировать результаты на невидимых данных; Тем не менее, CV ничего не говорит о «достоверности» или адекватности предполагаемых причинно-следственных связей. Мы, безусловно, могли бы добиться достойных результатов с моделью, в которой некоторые эффекты умеренности и / или посредничества игнорируются или просто не известны заранее.

Я хочу сказать, что независимо от того, какой метод вы используете для проверки вашей модели (и метод удержания, безусловно, не самый лучший, но все же он широко используется в эпидемиологических исследованиях для облегчения проблем, возникающих при поэтапном построении модели), вы работаете с одной и той же выборкой. (который мы предполагаем, является представителем большей численности населения). Напротив, обобщение результатов и причинно-следственных связей, выведенных таким образом на новые выборки или правдоподобно связанную популяцию, обычно проводится исследованиями репликации . Это гарантирует, что мы можем безопасно проверить предсказательную способность нашей модели в «суперпопуляции», которая имеет больший диапазон индивидуальных вариаций и может демонстрировать другие потенциальные факторы, представляющие интерес.

Ваша модель может предоставлять правильные прогнозы для вашего рабочего образца, и она включает в себя все потенциальные факторы, которые могут возникнуть; однако, возможно, что он не будет работать так же хорошо с новыми данными, просто потому, что на промежуточном причинном пути появляются другие факторы, которые не были идентифицированы при построении исходной модели. Это может произойти, если некоторые из предикторов и причинно-следственных связей, выведенных из них, зависят, например, от конкретного исследовательского центра, в который были набраны пациенты.

В генетической эпидемиологии многие исследования геномных ассоциаций не воспроизводятся только потому, что мы пытаемся смоделировать сложные заболевания с упрощенным взглядом на причинно-следственные связи между маркерами ДНК и наблюдаемым фенотипом, в то время как весьма вероятно, что ген-ген (эпистаз), генные заболевания (плейотропия), генная среда и популяционная субструктура - все это играет роль, но посмотрите, например, на валидацию, увеличение и уточнение сигналов ассоциации всего генома(Ioannidis et al., Nature Reviews Genetics, 2009 10). Таким образом, мы можем создать эффективную модель для учета наблюдаемых кросс-вариаций между набором генетических маркеров (с очень низким и редким размером эффекта) и многовариантной картиной наблюдаемых фенотипов (например, объем белого / серого вещества или локализованные действия в головном мозге, наблюдаемые с помощью фМРТ, реакции на нейропсихологическую оценку или инвентаризацию личности), но они все равно не будут работать так, как ожидалось для независимой выборки.

Что касается общего справочника по этой теме, могу порекомендовать главу 17 и часть III моделей клинического прогнозирования от EW Steyerberg (Springer, 2009). Мне также нравится следующая статья от Иоаннидиса:

Йоаннидис, JPA, Почему большинство опубликованных результатов исследований являются ложными? PLoS Med. 2005 2 (8): с124

хл
источник
1
@chl: Можете ли вы объяснить свое утверждение в первом абзаце о внутренней и внешней действительности? В традиции, с которой я знаком: внутренняя валидность относится к способности утверждать причинно-следственные связи между переменными в конкретной выборке; внешняя валидность - это способность обобщать выборку для других людей, мест и времен. Традиционно перекрестная проверка относится к последнему и, следовательно, согласно приведенному выше определению внешней достоверности, тогда как вы заявляете, что речь идет о внутренней достоверности. Я неправильно понял ваше заявление?
Бретт
1
@ Бретт Я думал о CV как о статистическом методе, позволяющем избежать переоснащения или обеспечить меру точности прогнозирования на рабочей выборке (следовательно, не обязательно как специальный инструмент для демонстрации внутренней достоверности). Мне было не очень ясно, спасибо или указывал на это. Я согласен, что это затем используется для обобщения имеющегося образца, но там я думаю, что он не имеет ничего общего с причинно-следственной связью (CV ничего не доказывает о причинно-следственных связях, смоделированных в рабочем образце). Я разделяю ваше мнение о внешней валидности, но для его демонстрации нам нужны другие образцы, нет?
chl
1
Вы могли бы уточнить этот первый абзац. Я думаю, вы пытаетесь сказать, что резюме не выполняет внутреннюю валидность. Это вопрос для других процессов. Но, если у нас есть хорошая внутренняя валидность по другим причинам, какими бы они ни были, CV поможет более точно оценить этот эффект для людей, мест и времени - то есть улучшить внешнюю валидность. Я до сих пор не могу придумать, каким образом CV поможет нам сделать каузальные утверждения о взаимосвязях между переменными - сам вопрос внутренней валидности - только для того, чтобы обобщить установленные причинно-следственные связи.
Бретт
1
@ Бретт Я думаю, что ваши комментарии к этому вопросу очень уместны и суммируют некоторые из вопросов очень хорошо. Я сомневаюсь, что это поможет любой путанице между внутренней и внешней валидностью в этой точке, но пример генетической эпидемиологии chl на самом деле является проблемой внутренней валидности, а не внешней валидности (за исключением разнородности набора данных (или популяционной субструктуры), но из-за того, что IMO имеет меньше заботы, чем внутренняя достоверность в этих примерах).
Энди Ш
2
Определение Бретта между внутренней и внешней достоверностью является точным, но для наших целей это поможет определить его в разных терминах. Внешняя достоверность касается только выборки и того, как эта выборка относится к другим группам населения. Внутренняя валидность касается различных аспектов оцениваемых эффектов и конструкций, используемых для оценки этих эффектов.
Энди Ш
12

Это хороший вопрос, но ответ определенно нет: перекрестная проверка не улучшит причинно-следственную связь. Если у вас есть соответствие между симптомами и заболеваниями, перекрестная проверка поможет убедиться, что ваша модель лучше соответствует их совместному распределению, чем если бы вы просто подгоняли свою модель ко всему набору необработанных данных, но она никогда не сможет вам ничего сказать Направленность причинно-следственной связи.

Перекрестная проверка очень важна и заслуживает изучения, но она не делает ничего, кроме того, чтобы не допустить чрезмерного совпадения с шумом в вашем наборе данных. Если вы хотите больше понять это, я бы предложил главу 7 ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

Джон Майлс Уайт
источник
Спасибо за ссылку. Итак, скажем, вас не беспокоит выбор модели, может ли быть полезной перекрестная проверка оценок эффекта от обучающих данных, установленных для набора данных?
Энди W
Это может быть, но я бы сказал, что в этот момент вы в основном делаете начальную загрузку (или ее разновидность).
Джон Майлс Уайт
Я согласен, я думаю, что регулярно делаются и другие вещи, которые отражают такую ​​же логику (например, тесты на специфичность подмножеств или неэквивалентные зависимые переменные). Я просто поставил вопрос, потому что представлял себе более формальные методы лечения.
Энди W
Комментарии для downvote всегда приветствуются!
chl
Эта книга - подарок, который продолжает дарить!
Hayd
6

Чтобы ответить на продолжение @ Энди опубликовал в качестве ответа здесь ...

Хотя я не могу сказать, какая оценка является правильной, а какая - ложной, разве несоответствие в оценках Assault Conviction и Gun Gun между двумя моделями не вызывает сомнений в том, что любая из них оказывает истинное причинное влияние на длину предложения?

Я думаю, что вы имеете в виду, что расхождение в оценках параметров дает нам основание полагать, что ни одна из оценок параметров не представляет истинного причинного эффекта. Я согласен с этим, хотя у нас уже было много причин скептически относиться к тому, что такая модель будет оказывать истинное причинное воздействие.

Вот мое мнение: чрезмерная подгонка данных является источником необъективных оценок параметров, и нет никаких оснований полагать, что это смещение компенсирует другие источники смещения при оценке конкретного причинного эффекта, тогда, в среднем, лучше оценивать причинные эффекты без чрезмерного соответствия данных. Перекрестная проверка предотвращает чрезмерную подгонку, поэтому она должна в среднем улучшить оценку причинных последствий.

Но если кто-то пытается убедить меня поверить в свою оценку причинно-следственного эффекта, полученную из данных наблюдений, доказательство того, что они не переоценивают свои данные, является низким приоритетом, если у меня нет веских оснований полагать, что их стратегия моделирования, скорее всего, более подгонка.

В приложениях по общественным наукам, с которыми я работаю, меня гораздо больше волнуют вопросы существа, измерения и проверки чувствительности. Под проверками чувствительности я подразумеваю оценку изменений в модели, где термины добавляются или удаляются, и оценку моделей с взаимодействиями, позволяющими варьировать влияние интереса в разных подгруппах. Насколько эти изменения в статистической модели влияют на оценку параметра, которую мы хотим интерпретировать причинно? Являются ли расхождения в оценке этого параметра между спецификациями моделей или подгруппами понятными с точки зрения причинной истории, которую вы пытаетесь рассказать, или они намекают на эффект, обусловленный, например, выбором.

На самом деле, прежде чем запускать эти альтернативные спецификации. Запишите, как, по вашему мнению, изменится ваша оценка параметров. Замечательно, если интересующая вас оценка параметров не сильно различается по подгруппам или спецификациям - в контексте моей работы это важнее, чем перекрестная проверка. Но другие существенные вопросы, влияющие на мою интерпретацию, еще важнее.

Майкл Бишоп
источник
Большое спасибо за взвешивание! Ваша точка зрения, безусловно, создает очень прямую мотивацию для перекрестной проверки в причинно-следственных моделях, которые я никогда сам не мог сформулировать. ИМО, вы даже немного продаете себя, используя ярлык перетяжки. Например, в начальном исследовательском наборе я могу посмотреть на соответствие модели между уравнениями, используя независимую переменную в начальном масштабе по сравнению с логарифмическим масштабом. Я решаю, что модель с логарифмическим масштабом подходит лучше, а затем использую это в модели с выносом. Как правило, это не считается чрезмерным соответствием (выбор между одним или другим), продолжение ...
Энди В.
но все еще вписывается в парадигму, которую вы предложили в своем вот моём параграфе.
Энди В.
5

Я благодарю всех за их ответы, но вопрос вырос до того, к чему я не собирался, будучи в основном эссе об общем понятии причинного вывода без правильного ответа.

Я изначально намеревался задать вопрос, чтобы исследовать аудиторию для примеров использования перекрестной проверки для причинного вывода. Я предполагал, что такие методы существуют, так как идея использования тестовой выборки и выборочной выборки для оценки повторяемости оценок эффекта показалась мне логичной. Как отметил Джон, то, что я предлагал, не отличается от начальной загрузки, и я бы сказал, что она напоминает другие методы, которые мы используем для проверки результатов, такие как тесты на специфичность подмножества или неэквивалентные зависимые переменные (самонастройка ослабляет параметрические предположения моделей и подмножество). тесты в более общем виде используются для проверки логичности результатов в различных ситуациях). Ни один из этих методов не отвечает ни одному из других стандартов ответов на причинно-следственные связи, но я считаю, что они все еще полезны для причинно-следственных связей.

Комментарий chl верен в том смысле, что мое утверждение об использовании перекрестной проверки является проверкой внутренней достоверности, чтобы помочь в причинно-следственной связи. Но я прошу, чтобы мы отбросили различие между внутренней и внешней валидностью на данный момент, поскольку это ничего не делает для продолжения дискуссии. В качестве примера исследований широкого генома в эпидемиологии я бы рассмотрел главный пример плохой внутренней валидности, что делает серьезные выводы по своей сути сомнительными. Я думаю, что исследования ассоциации генома на самом деле являются примером того, что я просил. Считаете ли вы, что выводы между генами и заболеванием улучшаются за счет перекрестной проверки (в отличие от простого выброса всех маркеров в одну модель и соответствующей корректировки значений p?)

Ниже я вставил копию таблицы в статью Берк, которую я привел в своем вопросе. Хотя эти таблицы демонстрируют ложную логику использования критериев поэтапного выбора и причинно-следственной связи для одной и той же модели, давайте представим, что критерии выбора модели не использовались, а параметры как в обучающей, так и в выборочной выборке были определены априори, Это не кажется мне нереальным результатом. Хотя я не могу сказать, какая оценка является правильной, а какая - ложной, разве несоответствие в оценках Assault Conviction и Gun Gun между двумя моделями не вызывает сомнений в том, что любая из них оказывает истинное причинное влияние на длину предложения? Знание этого варианта бесполезно? Если мы ничего не теряем, имея протяженный образец для тестирования нашей модели, почему мы не можем использовать перекрестную проверку для улучшения причинно-следственной связи (или я упускаю то, что мы теряем, используя протяженный образец?) альтернативный текст

Энди W
источник
1
Примечание о том, почему это было отклонено, будет оценено.
Энди У
2
Я подпишу @Andy и предложу оставить комментарий при понижении голосов: всегда полезно узнать, что не так, если таковые имеются. Особенно в этом случае: Энди У вернулся с расширенными комментариями CW, которые, на мой взгляд, добавляют дополнительную поддержку первоначальному вопросу. Здесь не нужно ничего понижать!
chl
1
Разве стандартная ошибка / доверительный интервал уже не дают вам этого признака изменчивости? оценки вашего набора тестов содержатся в ваших стандартных доверительных интервалах из вашего набора тренировок. Я бы подумал, что небольшие стандартные ошибки и узкие КИ важны для причинности.
вероятностная
Да, @probabilityislogic, вы правы. Я полагаю, что когда я высказал это мнение, это означало не ситуацию, в которой вы применяете CV к уже доступному набору данных, а к набору данных, собранному в другое время. Я подумал, что CV может быть полезен для поддержки причинных утверждений, но мне все еще не ясно, так ли это. Я только видел, что это может быть полезно с точки зрения выбора модели, не проверяя модель каким-либо образом (например, моя модель на этих новых данных дает очень близкое соответствие).
Энди В.
1

Я думаю, что это интуитивно понятный способ думать о связи между CV и причинно-следственной связи: (пожалуйста, исправьте, если я ошибаюсь)

Я всегда думаю о CV как о способе оценки производительности модели в прогнозах. Тем не менее, в причинно-следственном заключении нас больше интересует нечто, эквивалентное бритве Оккама (скупости), поэтому CV не поможет.

Спасибо.

suncoolsu
источник
Причина, по которой я поставил этот вопрос, заключается в том, что нам не нужно думать о перекрестной проверке как о единственном способе оценки предсказательной способности моделей. Нередко беспокоиться о том, что результаты модели (и, следовательно, сделанные выводы) являются артефактами по многим потенциальным причинам. Следовательно, мы хотим проверить надежность результатов, и я подумал, что перекрестная проверка может быть полезным контекстом для проверки надежности результатов.
Энди W
извините за неправильное толкование.
Suncoolsu
Не нужно извинений. Я тот, кто предлагает что-то явно незначительное, и перекрестная проверка, по-видимому, всегда используется в контексте, который вы предлагаете.
Энди У
@suncoolsu, Когда я думаю о причинно-следственном заключении, я никогда не беспокоюсь об острой или оксимонии Оккама, не могли бы вы объяснить мне эту связь?
Майкл Бишоп