Когда вы можете использовать критерии на основе данных для определения регрессионной модели?

20

Я слышал, что когда многие спецификации регрессионных моделей (скажем, в OLS) рассматриваются как возможности для набора данных, это вызывает многочисленные проблемы сравнения, а значения p и доверительные интервалы перестают быть надежными. Одним из крайних примеров этого является ступенчатая регрессия.

Когда я могу использовать сами данные, чтобы помочь определить модель, и когда это недопустимый подход? Вам всегда нужна предметная теория, чтобы сформировать модель?

Statisfactions
источник

Ответы:

9

В целом методы выбора переменных (будь то пошаговое, обратное, прямое, все подмножества, AIC и т. Д.) Используют случайные или случайные закономерности в выборочных данных, которые не существуют в популяции. Технический термин для этого является слишком подходящим, и он особенно проблематичен для небольших наборов данных, хотя он не является исключительным для них. Используя процедуру, которая выбирает переменные на основе наилучшего соответствия, все случайные отклонения, которые выглядят как подходящие в этой конкретной выборке, вносят вклад в оценки и стандартные ошибки. Это проблема как для предсказания, так и для интерпретации модели.

В частности, r-квадрат слишком высок, а оценки параметров смещены (они слишком далеки от 0), стандартные ошибки для параметров слишком малы (и, следовательно, p-значения и интервалы вокруг параметров слишком малы / узки).

Лучшая линия защиты от этих проблем - это продуманное построение моделей и включение предикторов, которые имеют смысл на основе теории, логики и предыдущих знаний. Если необходима процедура выбора переменной, вы должны выбрать метод, который штрафует оценки параметров (методы усадки), корректируя параметры и стандартные ошибки, чтобы учесть избыточную подгонку. Некоторыми распространенными методами усадки являются регрессия гребня, регрессия наименьшего угла или лассо. Кроме того, перекрестная проверка с использованием обучающего набора данных и тестового набора данных или усреднение модели могут быть полезны для проверки или уменьшения последствий перенастройки.

Харрелл является отличным источником для подробного обсуждения этих проблем. Харрелл (2001). «Стратегии регрессионного моделирования».

Brett
источник
Принимая, очень долго! Спасибо за подробный обзор технических вопросов, и я посмотрю книгу Харрелла.
Статистика
7

В контексте социальных наук, откуда я родом, вопрос заключается в том, заинтересованы ли вы в (а) прогнозировании или (б) тестировании целенаправленного исследовательского вопроса. Если целью является прогнозирование, то подходы, основанные на данных, являются подходящими. Если цель состоит в том, чтобы исследовать сфокусированный вопрос исследования, важно рассмотреть, какая регрессионная модель конкретно проверяет ваш вопрос.

Например, если ваша задача состояла в том, чтобы выбрать набор тестов отбора для прогнозирования производительности работы, цель в некотором смысле можно рассматривать как максимизацию прогнозирования производительности работы. Таким образом, подходы, основанные на данных, были бы полезны.

Напротив, если вы хотите понять относительную роль переменных личности и переменных способностей в влиянии на производительность, тогда может быть более подходящим подход сравнения конкретной модели.

Обычно при изучении сфокусированных вопросов исследования цель состоит в том, чтобы выяснить что-то об основных причинных процессах, которые работают, в отличие от разработки модели с оптимальным прогнозированием.

Когда я нахожусь в процессе разработки моделей процесса, основанных на данных поперечного сечения, я бы с осторожностью отнесся к: (а) включению предикторов, которые теоретически могут рассматриваться как последствия переменной результата. Например, убеждение человека в том, что он хороший исполнитель, является хорошим предиктором эффективности работы, но вполне вероятно, что это хотя бы частично вызвано тем фактом, что они наблюдали за собственной работой. (б) включая большое количество предикторов, которые отражают одни и те же основные явления. Например, в том числе 20 пунктов, все измерить удовлетворенность жизнью по-разному.

Таким образом, сфокусированные исследовательские вопросы в большей степени зависят от предметных знаний. Вероятно, это объясняет, почему подходы, основанные на данных, реже используются в социальных науках.

Джером англим
источник
4

Я не думаю, что возможно сделать Bonferoni или подобные исправления, чтобы скорректировать выбор переменных в регрессии, потому что все тесты и шаги, вовлеченные в выбор модели, не являются независимыми.

Один из подходов состоит в том, чтобы сформулировать модель с использованием одного набора данных и сделать вывод о другом наборе данных. Это делается для прогнозирования все время, когда у нас есть тренировочный набор и тестовый набор. Это не очень распространено в других областях, вероятно, потому что данные настолько ценны, что мы хотим использовать каждое отдельное наблюдение для выбора модели и для вывода. Однако, как вы отмечаете в своем вопросе, недостатком является то, что вывод на самом деле вводит в заблуждение.

Есть много ситуаций, когда основанный на теории подход невозможен, поскольку нет развитой теории. На самом деле, я думаю, что это гораздо чаще, чем те случаи, когда теория предлагает модель.

Роб Хиндман
источник
4

Ричард Берк недавно опубликовал статью, в которой он демонстрирует посредством моделирования проблемы такого отслеживания данных и статистического вывода. Как предположил Роб, это более проблематично, чем просто исправление нескольких тестов гипотез.

Статистический вывод после выбора модели : Ричард Берк, Лоуренс Браун, Линда Чжао Журнал количественной криминологии, Vol. 26, № 2. (1 июня 2010 г.), с. 217-236.

PDF версия здесь

Энди У
источник
(+1) Спасибо за ссылку! Вас может заинтересовать этот связанный вопрос, stats.stackexchange.com/questions/3200/… . Не стесняйтесь вносить свой вклад.
ЧЛ
@ CHL, я не думаю, что могу что-то добавить к и без того отличным ответам на этот вопрос. Я действительно думаю, что ответ Брендана очень острый, потому что я подозреваю, что оригинальный постер действительно заинтересован в причинно-следственной связи, а не только в предсказании, основанном на контексте вопроса.
Энди W
Да, я думал о его ответе. Я инициировал размышления о проблеме дноуглубления данных (не совсем о проблемах выбора модели / переменной или причинно-следственной связи), но пока получаю мало ответов. Если вы хотите добавить свои собственные идеи, было бы интересно: stats.stackexchange.com/questions/3252/…
chl
2

Если я правильно понимаю ваш вопрос, тогда ответом на вашу проблему является исправление p-значений в соответствии с числом гипотез.

Например, поправки Холма-Бонферони, где вы сортируете гипотезу (= ваши разные модели) по их p-значению и отклоняете те, у которых ap samller чем (желаемое p-значение / индекс).

Больше о теме можно найти в Википедии

Питер Смит
источник
1
Возможно, вы захотите прочитать этот ответ на отдельный вопрос и понять, почему корректировка p-значений таким способом может оказаться не самым лучшим решением, stats.stackexchange.com/questions/3200/…
Энди W