В психологии и других областях часто используется форма ступенчатой регрессии, которая включает в себя следующее:
- Посмотрите на остальные предикторы (сначала их нет в модели) и определите предиктор, который приведет к наибольшему изменению r-квадрата;
- Если значение p изменения r-квадрата меньше, чем альфа (обычно 0,05), включите этот предиктор и вернитесь к шагу 1, в противном случае остановите.
Например, см. Эту процедуру в SPSS .
Процедура регулярно подвергается критике по широкому кругу причин (см. Это обсуждение на веб-сайте Stata со ссылками ).
В частности, сайт Stata обобщает несколько комментариев Фрэнка Харрелла. Я заинтересован в претензии:
[ступенчатая регрессия] дает значения R-квадрата, которые сильно смещены, чтобы быть высокими.
В частности, некоторые из моих текущих исследований посвящены оценке r-квадрата населения . Под r-квадратом населения я понимаю процент дисперсии, который объясняется уравнением формирования данных о населении. Большая часть существующей литературы, которую я рецензирую, использует пошаговые регрессионные процедуры, и я хочу знать, являются ли предоставленные оценки предвзятыми и, если да, то насколько. В частности, типичное исследование будет иметь 30 предикторов, n = 200, альфа-вход 0,05 и оценки r-квадрата около 0,50.
Что я знаю:
- Асимптотически любой предиктор с ненулевым коэффициентом будет статистически значимым предиктором, и r-квадрат будет равен скорректированному r-квадрату. Таким образом, асимптотически ступенчатая регрессия должна оценивать истинное уравнение регрессии и r-квадрат истинного населения.
- При меньших размерах выборки возможное отсутствие некоторых предикторов приведет к меньшему r-квадрату, чем если бы все предикторы были включены в модель. Но также обычное смещение r-квадрата к данным выборки увеличит r-квадрат. Таким образом, моя наивная мысль состоит в том, что потенциально эти две противоборствующие силы могут при определенных условиях привести к непредвзятому r-квадрату. И, в более общем смысле, направление смещения будет зависеть от различных характеристик данных и критериев альфа-включения.
- Установка более строгого критерия альфа-включения (например, 0,01, 0,001 и т. Д.) Должна снизить ожидаемую предполагаемую величину r-квадрата, поскольку вероятность включения любого предиктора в любое поколение данных будет меньше.
- В целом, r-квадрат - это смещенная вверх оценка r-квадрата населения, и степень этого смещения увеличивается с увеличением количества предикторов и меньших размеров выборки.
Вопрос
Итак, наконец, мой вопрос:
- В какой степени r-квадрат из ступенчатой регрессии приводит к смещенной оценке r-квадрата населения?
- В какой степени это смещение связано с размером выборки, числом предикторов, критерием альфа-включения или свойствами данных?
- Есть ли ссылки на эту тему?
источник
Ответы:
источник
обзор
моделирование
Следующее моделирование имеет четыре некоррелированных предиктора, где r-квадрат населения составляет 40%. Два предиктора объясняют 20% каждый, а два других предиктора объясняют 0%. Моделирование генерирует 1000 наборов данных и оценивает r-квадрат ступенчатой регрессии в процентах для каждого набора данных.
Следующий код возвращает r-квадрат с альфа-каналом для ввода .01, .001, .0001 и .00001.
Следующие результаты указывают на смещение для каждой из пяти альфа-записей. Обратите внимание, что я умножил r-квадрат на 100, чтобы было легче увидеть различия.
Результаты показывают, что альфа записей 0,01 и 0,001 приводит к положительному смещению, а альфа записей 0,0001 и 0,00001 приводит к отрицательному смещению. Так что, предположительно, альфа входа около .0005 приведет к непредвзятой ступенчатой регрессии.
Основной вывод, который я сделал из этого, заключается в том, что ступенчатая регрессия не является изначально смещенной в определенном направлении. Тем не менее, он будет по меньшей мере несколько смещен для всех, кроме одного p-значения записи предиктора. Я принимаю точку зрения Питера Флома о том, что в реальном мире мы не знаем процесс генерации данных. Тем не менее, я представляю, что более детальное исследование того, как меняется это смещение, n, альфа-вход, процессы генерирования данных и пошаговая процедура регрессии (например, включая обратный проход) может существенно помочь понять такое смещение.
Ссылки
источник