Мне хорошо известны проблемы пошагового / прямого / обратного отбора в регрессионных моделях. Есть многочисленные случаи, когда исследователи осуждали методы и указывали на лучшие альтернативы. Мне было любопытно, существуют ли какие-либо истории, где существует статистический анализ:
- использовал ступенчатую регрессию;
- сделал некоторые важные выводы на основе окончательной модели
- заключение было неверным, что привело к негативным последствиям для человека, его исследования или их организации
Я думаю об этом, если ступенчатые методы плохие, то в «реальном мире» должны быть последствия их использования.
regression
stepwise-regression
history
probabilityislogic
источник
источник
Ответы:
Существует более одного вопроса. Самый узкий из них просит привести пример того, когда ступенчатая регрессия нанесла вред, потому что она была выполнена ступенчато. Это, конечно, верно, но может быть однозначно установлено только тогда, когда данные, используемые для ступенчатой регрессии, также публикуются, и кто-то повторно анализирует их и публикует рецензируемую поправку с опубликованным опровержением первичных авторов. Обвинение в любом другом контексте может привести к судебному преследованию, и, если мы используем другой набор данных, мы можем заподозрить, что была допущена ошибка, но «статистика никогда ничего не доказывает», и мы не сможем установить, что ошибка была сделанный; "вне разумного сомнения".
На самом деле, часто можно получить разные результаты в зависимости от того, кто выполняет поэтапное исключение или наращивание регрессионного уравнения, что говорит о том, что ни один из подходов не является достаточно правильным, чтобы рекомендовать его использование. Понятно, что происходит что-то еще, и это подводит нас к более широкому вопросу, также задаваемому выше, но в форме маркера, который сводится к тому, «Каковы проблемы со ступенчатой регрессией, так или иначе? Это более полезный вопрос, на который нужно ответить». добавленная выгода в том, что против меня не будет подан судебный иск.
Делать это правильно для пошагового MLR, значит использовать 1) физически правильные единицы (см. Ниже), и 2) соответствующее преобразование переменной для лучших корреляций и типа распределения ошибок (для гомоскедастичности и физичности), и 3) использование всех перестановок комбинаций переменных, а не пошагово, все они , и 4) если кто-то выполняет исчерпывающую регрессионную диагностику, тогда можно избежать пропусков комбинаций переменных с высокой VIF (коллинеарностью), которые в противном случае могли бы ввести в заблуждение, тогда награда - лучшая регрессия.
Как и обещано для № 1 выше, мы затем исследуем правильные единицы измерения для физической системы. Поскольку хорошие результаты регрессии зависят от правильной обработки переменных, мы должны помнить об обычных измерениях физических единиц и правильно сбалансировать наши уравнения. Кроме того, для биологических применений необходима осведомленность и учет размерности аллометрического масштабирования .
источник