Когда вы выполняете эту работу, осознавая, что вы делаете, у вас появляется чувство, когда вы переоцениваете модель. Во-первых, вы можете отследить тренд или ухудшение скорректированного квадрата R модели. Также можно отследить аналогичное ухудшение значений p коэффициентов регрессии основных переменных.
Но когда вы просто читаете чужое исследование, и у вас нет понимания относительно процесса разработки собственной внутренней модели, как вы можете четко определить, является ли модель более подходящей или нет.
Ответы:
Перекрестная проверка и регуляризация являются довольно распространенными методами предотвращения переоснащения. Для быстрого ознакомления я бы порекомендовал учебные слайды Эндрю Мура по использованию перекрестной проверки ( зеркало ) - обратите особое внимание на предостережения. Для более подробной информации, безусловно, прочитайте главы 3 и 7 EOSL , которые подробно охватывают тему и связанные с ней вопросы.
источник
Когда я сам подгоняю модель, я обычно использую информационные критерии во время процесса подбора, такие как AIC или BIC , или, альтернативно, тесты отношения правдоподобия для подбора моделей на основе максимального правдоподобия или F-тест для подбора моделей на основе наименьших квадратов.
Все концептуально похожи в том, что они штрафуют дополнительные параметры. Они устанавливают порог «дополнительной объяснительной силы» для каждого нового параметра, добавляемого в модель. Все они являются формой регуляризации .
Что касается моделей других, я просматриваю раздел методов, чтобы увидеть, используются ли такие методы, а также использовать практические правила, такие как количество наблюдений на параметр - если есть около 5 (или меньше) наблюдений на параметр, я начинаю удивляться.
Всегда помните, что переменная не обязательно должна быть «значимой» в модели, чтобы быть важной. Я могу быть нарушителем и должен быть включен на этой основе, если ваша цель - оценить влияние других переменных.
источник
источник