У меня классическая линейная модель, с 5 возможными регрессорами. Они не связаны друг с другом и имеют довольно низкую корреляцию с ответом. Я пришел к модели, в которой 3 регрессора имеют значимые коэффициенты для своей t-статистики (р <0,05). Добавление одной или обеих оставшихся 2 переменных дает значения p> 0,05 для статистики t, для добавленных переменных. Это приводит меня к мысли, что модель с тремя переменными является «лучшей».
Однако, используя команду anova (a, b) в R, где a - это модель с 3 переменными, а b - полная модель, значение p для статистики F составляет <0,05, что говорит мне о том, что я предпочитаю полную модель над переменной 3 модель. Как я могу примирить эти очевидные противоречия?
Спасибо PS Редактировать: немного дальнейшего фона. Это домашнее задание, поэтому я не буду публиковать подробности, но нам не дают подробностей о том, что представляют собой регрессоры - они просто пронумерованы от 1 до 5. Нас просят «найти подходящую модель, дающую обоснование».
источник
Ответы:
Проблема началась, когда вы искали сокращенную модель и использовали данные, а не предметные знания, чтобы выбрать предикторы. Поэтапный выбор переменной без одновременного усечения для наказания за выбор переменной, хотя и часто используется, является недопустимым подходом. Об этом много написано. Нет оснований полагать, что модель с тремя переменными является «наилучшей», и нет причин не использовать исходный список предопределенных предикторов. P-значения, вычисленные после использования P-значений для выбора переменных, недопустимы. Это было названо «двойным погружением» в литературе по функциональной визуализации.
Вот аналогия. Предположим, что кто-то заинтересован в сравнении 6 процедур, но использует парные t-тесты, чтобы выбрать, какие процедуры «отличаются», что приводит к уменьшению набора из 4 процедур. Затем аналитик проверяет общую разницу с 3 степенями свободы. Этот F-тест будет иметь завышенную ошибку типа I. Оригинальный F тест с 5 df вполне допустим.
См. Http://www.stata.com/support/faqs/stat/stepwise.html и пошаговая регрессия для получения дополнительной информации.
источник
Один из ответов будет: «Это невозможно сделать без знания предмета». К сожалению, это, вероятно, даст вам F в вашем назначении. Если только я не был твоим профессором. Тогда он получил бы А.
Тогда есть
Что ж, если вы ЗНАЕТЕ это (то есть, ваш инструктор сказал вам) и если под «независимым» вы подразумеваете «не имеющее отношения к DV», то вы знаете, что лучшая модель - это модель без предикторов, и ваша интуиция верна.
источник
Вы можете попробовать сделать перекрестную проверку. Выберите подмножество вашей выборки, найдите «лучшую» модель для этого подмножества, используя F или t-тесты, затем примените ее к полному набору данных (полная перекрестная проверка может оказаться более сложной, чем эта, но это было бы хорошим началом). Это помогает облегчить некоторые проблемы пошагового тестирования.
См . Примечание Дэвида Фридмана о скрининге уравнений регрессии , где можно найти симпатичную симуляцию этой идеи.
источник
Мне очень нравится метод, использованный в
caret
пакете: устранение рекурсивных функций. Вы можете прочитать больше об этом в виньетке , но вот основной процесс:Основная идея состоит в том, чтобы использовать критерии (такие как t-статистика), чтобы исключить неважные переменные и посмотреть, как это улучшает прогнозную точность модели. Вы оборачиваете все это в цикл повторной выборки, такой как перекрестная проверка. Вот пример использования линейной модели для ранжирования переменных способом, подобным тому, что вы описали:
В этом примере алгоритм обнаруживает, что есть 3 «важные» переменные, но он получает только 2 из них.
источник