Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными?
В то время как эта статья Ричарда Берк демонстрирует использование выборки с задержкой для выбора параметров в «окончательной» регрессионной модели (и демонстрирует, почему пошаговый выбор параметров не является хорошей идеей), я все еще не понимаю, как это точно обеспечивает непредвзятые оценки влияния X оказывают на Y больше, чем выбор модели, основанной на логике и предшествующем знании предмета.
Я прошу, чтобы люди приводили примеры, в которых один из них использовал протяженный образец, чтобы помочь в причинном выводе, или общие очерки, которые могут помочь моему пониманию. Я также не сомневаюсь, что моя концепция перекрестной проверки наивна, и так, если это так сказать. Кажется, что неосторожное использование отсроченного образца поддается причинно-следственной связи, но я не знаю ни одной работы, которая делает это или как они это сделали бы.
Цитата для Berk Paper:
Статистический вывод после выбора модели : Ричард Берк, Лоуренс Браун, Линда Чжао Журнал количественной криминологии, Vol. 26, № 2. (1 июня 2010 г.), с. 217-236.
PDF версия здесь
Этот вопрос об исследовательском анализе данных в малых выборочных исследованиях ХЛ вызвал этот вопрос.
источник
Это действительно интересный вопрос, и я не предлагаю конкретных ссылок. Однако в целом, я бы сказал, НЕТ, сама по себе перекрестная проверка не дает никакого представления о причинно-следственной связи. В отсутствие запланированного эксперимента проблема причинности всегда остается неопределенной. Как вы предлагаете, перекрестная проверка может и улучшит точность прогнозирования. Это само по себе ничего не говорит о причинности.
В отсутствие запланированного эксперимента для причинного вывода потребовалась бы модель, которая включала бы все соответствующие предикторы - что мы редко можем гарантировать в наблюдательном исследовании. Более того, простая переменная лага, например (или что-либо, что сильно коррелирует с тем результатом, который мы пытались предсказать), дала бы хорошую модель, которую можно было бы проверить в нескольких выборках. Это не означает, однако, что мы можем сделать вывод о причинно-следственной связи. Перекрестная проверка обеспечивает повторяемость прогнозов и ничего более. Причинность - это вопрос дизайна и логики.
РЕДАКТИРОВАТЬ: Вот пример для иллюстрации. Я мог бы построить модель с хорошей точностью прогнозирования, которая прогнозирует население города на основе суммы денег, которую город тратит на вывоз мусора. Я мог бы использовать перекрестную проверку для проверки точности этой модели, а также другие методы, чтобы улучшить точность прогнозирования и получить более стабильные параметры. Теперь, хотя эта модель отлично подходит для прогнозирования, причинная логика неверна - причинное направление меняется на противоположное. Независимо от того, о чем могут спорить ребята из Департамента общественных работ, увеличение их бюджета на вывоз мусора не будет хорошей стратегией для увеличения населения города (причинная интерпретация).
Вопросы точности и повторяемости модели отделены от нашей способности делать причинные выводы о наблюдаемых нами отношениях. Перекрестная проверка помогает нам с первым, а не с последним. Теперь, если мы оцениваем «правильную» модель с точки зрения определения случайных отношений (например, пытаясь определить, какой наш бюджет на удаление мусора должен быть основан на нашем ожидаемом населении в следующем году), перекрестная проверка может помочь нам получить большую уверенность в нашей оценке этого эффекта. Однако перекрестная проверка не помогает нам выбрать «правильную» модель в отношении причинно-следственных связей. Опять же, здесь мы должны полагаться на дизайн исследования, нашу экспертизу предмета, теорию и логику.
источник
Мне кажется, что ваш вопрос в более общем плане касается другого вида валидации для прогнозирующей модели: перекрестная валидация в некоторой степени связана с внутренней валидностью или, по крайней мере, с начальной стадией моделирования, тогда как рисование причинно-следственных связей в более широкой популяции более связано к внешней действительности, Под этим (и в качестве обновления после замечательного замечания @ Бретта) я подразумеваю, что мы обычно строим модель на рабочей выборке, предполагая гипотетическую концептуальную модель (то есть мы определяем отношения между предикторами и интересующими их результатами), и мы пытаемся получить надежные оценки с минимальной частотой ошибок классификации или минимальной ошибкой прогнозирования. Надеемся, что чем лучше будет работать модель, тем лучше она позволит нам прогнозировать результаты на невидимых данных; Тем не менее, CV ничего не говорит о «достоверности» или адекватности предполагаемых причинно-следственных связей. Мы, безусловно, могли бы добиться достойных результатов с моделью, в которой некоторые эффекты умеренности и / или посредничества игнорируются или просто не известны заранее.
Я хочу сказать, что независимо от того, какой метод вы используете для проверки вашей модели (и метод удержания, безусловно, не самый лучший, но все же он широко используется в эпидемиологических исследованиях для облегчения проблем, возникающих при поэтапном построении модели), вы работаете с одной и той же выборкой. (который мы предполагаем, является представителем большей численности населения). Напротив, обобщение результатов и причинно-следственных связей, выведенных таким образом на новые выборки или правдоподобно связанную популяцию, обычно проводится исследованиями репликации . Это гарантирует, что мы можем безопасно проверить предсказательную способность нашей модели в «суперпопуляции», которая имеет больший диапазон индивидуальных вариаций и может демонстрировать другие потенциальные факторы, представляющие интерес.
Ваша модель может предоставлять правильные прогнозы для вашего рабочего образца, и она включает в себя все потенциальные факторы, которые могут возникнуть; однако, возможно, что он не будет работать так же хорошо с новыми данными, просто потому, что на промежуточном причинном пути появляются другие факторы, которые не были идентифицированы при построении исходной модели. Это может произойти, если некоторые из предикторов и причинно-следственных связей, выведенных из них, зависят, например, от конкретного исследовательского центра, в который были набраны пациенты.
В генетической эпидемиологии многие исследования геномных ассоциаций не воспроизводятся только потому, что мы пытаемся смоделировать сложные заболевания с упрощенным взглядом на причинно-следственные связи между маркерами ДНК и наблюдаемым фенотипом, в то время как весьма вероятно, что ген-ген (эпистаз), генные заболевания (плейотропия), генная среда и популяционная субструктура - все это играет роль, но посмотрите, например, на валидацию, увеличение и уточнение сигналов ассоциации всего генома(Ioannidis et al., Nature Reviews Genetics, 2009 10). Таким образом, мы можем создать эффективную модель для учета наблюдаемых кросс-вариаций между набором генетических маркеров (с очень низким и редким размером эффекта) и многовариантной картиной наблюдаемых фенотипов (например, объем белого / серого вещества или локализованные действия в головном мозге, наблюдаемые с помощью фМРТ, реакции на нейропсихологическую оценку или инвентаризацию личности), но они все равно не будут работать так, как ожидалось для независимой выборки.
Что касается общего справочника по этой теме, могу порекомендовать главу 17 и часть III моделей клинического прогнозирования от EW Steyerberg (Springer, 2009). Мне также нравится следующая статья от Иоаннидиса:
источник
Это хороший вопрос, но ответ определенно нет: перекрестная проверка не улучшит причинно-следственную связь. Если у вас есть соответствие между симптомами и заболеваниями, перекрестная проверка поможет убедиться, что ваша модель лучше соответствует их совместному распределению, чем если бы вы просто подгоняли свою модель ко всему набору необработанных данных, но она никогда не сможет вам ничего сказать Направленность причинно-следственной связи.
Перекрестная проверка очень важна и заслуживает изучения, но она не делает ничего, кроме того, чтобы не допустить чрезмерного совпадения с шумом в вашем наборе данных. Если вы хотите больше понять это, я бы предложил главу 7 ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
источник
Чтобы ответить на продолжение @ Энди опубликовал в качестве ответа здесь ...
Я думаю, что вы имеете в виду, что расхождение в оценках параметров дает нам основание полагать, что ни одна из оценок параметров не представляет истинного причинного эффекта. Я согласен с этим, хотя у нас уже было много причин скептически относиться к тому, что такая модель будет оказывать истинное причинное воздействие.
Вот мое мнение: чрезмерная подгонка данных является источником необъективных оценок параметров, и нет никаких оснований полагать, что это смещение компенсирует другие источники смещения при оценке конкретного причинного эффекта, тогда, в среднем, лучше оценивать причинные эффекты без чрезмерного соответствия данных. Перекрестная проверка предотвращает чрезмерную подгонку, поэтому она должна в среднем улучшить оценку причинных последствий.
Но если кто-то пытается убедить меня поверить в свою оценку причинно-следственного эффекта, полученную из данных наблюдений, доказательство того, что они не переоценивают свои данные, является низким приоритетом, если у меня нет веских оснований полагать, что их стратегия моделирования, скорее всего, более подгонка.
В приложениях по общественным наукам, с которыми я работаю, меня гораздо больше волнуют вопросы существа, измерения и проверки чувствительности. Под проверками чувствительности я подразумеваю оценку изменений в модели, где термины добавляются или удаляются, и оценку моделей с взаимодействиями, позволяющими варьировать влияние интереса в разных подгруппах. Насколько эти изменения в статистической модели влияют на оценку параметра, которую мы хотим интерпретировать причинно? Являются ли расхождения в оценке этого параметра между спецификациями моделей или подгруппами понятными с точки зрения причинной истории, которую вы пытаетесь рассказать, или они намекают на эффект, обусловленный, например, выбором.
На самом деле, прежде чем запускать эти альтернативные спецификации. Запишите, как, по вашему мнению, изменится ваша оценка параметров. Замечательно, если интересующая вас оценка параметров не сильно различается по подгруппам или спецификациям - в контексте моей работы это важнее, чем перекрестная проверка. Но другие существенные вопросы, влияющие на мою интерпретацию, еще важнее.
источник
Я благодарю всех за их ответы, но вопрос вырос до того, к чему я не собирался, будучи в основном эссе об общем понятии причинного вывода без правильного ответа.
Я изначально намеревался задать вопрос, чтобы исследовать аудиторию для примеров использования перекрестной проверки для причинного вывода. Я предполагал, что такие методы существуют, так как идея использования тестовой выборки и выборочной выборки для оценки повторяемости оценок эффекта показалась мне логичной. Как отметил Джон, то, что я предлагал, не отличается от начальной загрузки, и я бы сказал, что она напоминает другие методы, которые мы используем для проверки результатов, такие как тесты на специфичность подмножества или неэквивалентные зависимые переменные (самонастройка ослабляет параметрические предположения моделей и подмножество). тесты в более общем виде используются для проверки логичности результатов в различных ситуациях). Ни один из этих методов не отвечает ни одному из других стандартов ответов на причинно-следственные связи, но я считаю, что они все еще полезны для причинно-следственных связей.
Комментарий chl верен в том смысле, что мое утверждение об использовании перекрестной проверки является проверкой внутренней достоверности, чтобы помочь в причинно-следственной связи. Но я прошу, чтобы мы отбросили различие между внутренней и внешней валидностью на данный момент, поскольку это ничего не делает для продолжения дискуссии. В качестве примера исследований широкого генома в эпидемиологии я бы рассмотрел главный пример плохой внутренней валидности, что делает серьезные выводы по своей сути сомнительными. Я думаю, что исследования ассоциации генома на самом деле являются примером того, что я просил. Считаете ли вы, что выводы между генами и заболеванием улучшаются за счет перекрестной проверки (в отличие от простого выброса всех маркеров в одну модель и соответствующей корректировки значений p?)
Ниже я вставил копию таблицы в статью Берк, которую я привел в своем вопросе. Хотя эти таблицы демонстрируют ложную логику использования критериев поэтапного выбора и причинно-следственной связи для одной и той же модели, давайте представим, что критерии выбора модели не использовались, а параметры как в обучающей, так и в выборочной выборке были определены априори, Это не кажется мне нереальным результатом. Хотя я не могу сказать, какая оценка является правильной, а какая - ложной, разве несоответствие в оценках Assault Conviction и Gun Gun между двумя моделями не вызывает сомнений в том, что любая из них оказывает истинное причинное влияние на длину предложения? Знание этого варианта бесполезно? Если мы ничего не теряем, имея протяженный образец для тестирования нашей модели, почему мы не можем использовать перекрестную проверку для улучшения причинно-следственной связи (или я упускаю то, что мы теряем, используя протяженный образец?)
источник
Я думаю, что это интуитивно понятный способ думать о связи между CV и причинно-следственной связи: (пожалуйста, исправьте, если я ошибаюсь)
Я всегда думаю о CV как о способе оценки производительности модели в прогнозах. Тем не менее, в причинно-следственном заключении нас больше интересует нечто, эквивалентное бритве Оккама (скупости), поэтому CV не поможет.
Спасибо.
источник