Я применяю линейную модель к своим данным:
Я хотел бы оценить доверительный интервал (CI) коэффициентов ( , \ beta_ {1} ), используя метод начальной загрузки. Есть два способа применения метода начальной загрузки: β 1
Выборка парного ответа-предиктора: Произвольная повторная выборка пар и применение линейной регрессии к каждому прогону. После запусков мы получаем набор оценочных коэффициентов . Наконец, вычислите квантиль .
Пример ошибки: сначала примените линейную регрессию к исходным наблюдаемым данным, из этой модели мы получим и ошибку . После этого случайным образом повторите ошибку и вычислите новые данные с помощью и . Примените еще раз линейную регрессию. После запусков мы получаем набор оценочных коэффициентов . Наконец, вычислите квантиль .
Мои вопросы:
- Чем эти два метода отличаются?
- При каком допущении эти два метода дают одинаковый результат?
источник
boot.ci(my.boot, type="basic")
R
rms
validate
иcalibrate
функциях.Ответы:
Если пары «ответ-предиктор» были получены из популяции по случайной выборке, можно безопасно использовать схему повторной выборки case / random-x / your-first. Если предикторы контролировались, или значения предикторов были установлены экспериментатором, вы можете рассмотреть возможность использования схемы остаточной выборки / на основе модели / fixed-x / your-second.
Чем они отличаются? Дэвисон и Коунен, представляющие введение в бутстрап с приложениями на R , обсуждают этот вопрос (см. Стр. 9). См. Также код R в этом приложении Джона Фокса , в частности, функции boot.huber на стр.5 для схемы random-x и boot.huber.fixed на стр.10 для схемы fixed-x. В то время как в лекционных заметках Шализи две схемы применяются к разным наборам данных / проблемам, приложение Фокса иллюстрирует, как мало могут часто отличаться эти две схемы.
Когда можно ожидать, что они дадут почти одинаковые результаты? Одна ситуация, когда регрессионная модель задана правильно, например, нет немоделированной нелинейности, и обычные регрессионные допущения (например, ошибки iid, нет выбросов) удовлетворяются. См. Главу 21 книги Фокса (к которой косвенно принадлежит вышеупомянутое приложение с кодом R), в частности, обсуждение на стр. 598 и упражнение 21.3. озаглавленный «Случайная выборка против фиксированной повторной выборки в регрессии». Цитировать из книги
Из этого обсуждения вы также узнаете, почему при начальной загрузке fixed-x неявно предполагается, что функциональная форма модели является правильной (хотя не делается никаких предположений о форме распределения ошибок).
Смотрите также слайд 12 этого доклада для Общества актуариев в Ирландии Дерека Бэйна. У этого также есть иллюстрация того, что следует считать "тем же самым результатом":
источник