В целом методы выбора переменных (будь то пошаговое, обратное, прямое, все подмножества, AIC и т. Д.) Используют случайные или случайные закономерности в выборочных данных, которые не существуют в популяции. Технический термин для этого является слишком подходящим, и он особенно проблематичен для небольших наборов данных, хотя он не является исключительным для них. Используя процедуру, которая выбирает переменные на основе наилучшего соответствия, все случайные отклонения, которые выглядят как подходящие в этой конкретной выборке, вносят вклад в оценки и стандартные ошибки. Это проблема как для предсказания, так и для интерпретации модели.
В частности, r-квадрат слишком высок, а оценки параметров смещены (они слишком далеки от 0), стандартные ошибки для параметров слишком малы (и, следовательно, p-значения и интервалы вокруг параметров слишком малы / узки).
Лучшая линия защиты от этих проблем - это продуманное построение моделей и включение предикторов, которые имеют смысл на основе теории, логики и предыдущих знаний. Если необходима процедура выбора переменной, вы должны выбрать метод, который штрафует оценки параметров (методы усадки), корректируя параметры и стандартные ошибки, чтобы учесть избыточную подгонку. Некоторыми распространенными методами усадки являются регрессия гребня, регрессия наименьшего угла или лассо. Кроме того, перекрестная проверка с использованием обучающего набора данных и тестового набора данных или усреднение модели могут быть полезны для проверки или уменьшения последствий перенастройки.
Харрелл является отличным источником для подробного обсуждения этих проблем. Харрелл (2001). «Стратегии регрессионного моделирования».
В контексте социальных наук, откуда я родом, вопрос заключается в том, заинтересованы ли вы в (а) прогнозировании или (б) тестировании целенаправленного исследовательского вопроса. Если целью является прогнозирование, то подходы, основанные на данных, являются подходящими. Если цель состоит в том, чтобы исследовать сфокусированный вопрос исследования, важно рассмотреть, какая регрессионная модель конкретно проверяет ваш вопрос.
Например, если ваша задача состояла в том, чтобы выбрать набор тестов отбора для прогнозирования производительности работы, цель в некотором смысле можно рассматривать как максимизацию прогнозирования производительности работы. Таким образом, подходы, основанные на данных, были бы полезны.
Напротив, если вы хотите понять относительную роль переменных личности и переменных способностей в влиянии на производительность, тогда может быть более подходящим подход сравнения конкретной модели.
Обычно при изучении сфокусированных вопросов исследования цель состоит в том, чтобы выяснить что-то об основных причинных процессах, которые работают, в отличие от разработки модели с оптимальным прогнозированием.
Когда я нахожусь в процессе разработки моделей процесса, основанных на данных поперечного сечения, я бы с осторожностью отнесся к: (а) включению предикторов, которые теоретически могут рассматриваться как последствия переменной результата. Например, убеждение человека в том, что он хороший исполнитель, является хорошим предиктором эффективности работы, но вполне вероятно, что это хотя бы частично вызвано тем фактом, что они наблюдали за собственной работой. (б) включая большое количество предикторов, которые отражают одни и те же основные явления. Например, в том числе 20 пунктов, все измерить удовлетворенность жизнью по-разному.
Таким образом, сфокусированные исследовательские вопросы в большей степени зависят от предметных знаний. Вероятно, это объясняет, почему подходы, основанные на данных, реже используются в социальных науках.
источник
Я не думаю, что возможно сделать Bonferoni или подобные исправления, чтобы скорректировать выбор переменных в регрессии, потому что все тесты и шаги, вовлеченные в выбор модели, не являются независимыми.
Один из подходов состоит в том, чтобы сформулировать модель с использованием одного набора данных и сделать вывод о другом наборе данных. Это делается для прогнозирования все время, когда у нас есть тренировочный набор и тестовый набор. Это не очень распространено в других областях, вероятно, потому что данные настолько ценны, что мы хотим использовать каждое отдельное наблюдение для выбора модели и для вывода. Однако, как вы отмечаете в своем вопросе, недостатком является то, что вывод на самом деле вводит в заблуждение.
Есть много ситуаций, когда основанный на теории подход невозможен, поскольку нет развитой теории. На самом деле, я думаю, что это гораздо чаще, чем те случаи, когда теория предлагает модель.
источник
Ричард Берк недавно опубликовал статью, в которой он демонстрирует посредством моделирования проблемы такого отслеживания данных и статистического вывода. Как предположил Роб, это более проблематично, чем просто исправление нескольких тестов гипотез.
Статистический вывод после выбора модели : Ричард Берк, Лоуренс Браун, Линда Чжао Журнал количественной криминологии, Vol. 26, № 2. (1 июня 2010 г.), с. 217-236.
PDF версия здесь
источник
Если я правильно понимаю ваш вопрос, тогда ответом на вашу проблему является исправление p-значений в соответствии с числом гипотез.
Например, поправки Холма-Бонферони, где вы сортируете гипотезу (= ваши разные модели) по их p-значению и отклоняете те, у которых ap samller чем (желаемое p-значение / индекс).
Больше о теме можно найти в Википедии
источник