У меня возникли проблемы, чтобы понять, как использовать начальную загрузку для расчета интервалов прогнозирования для модели линейной регрессии. Может кто-нибудь наметить пошаговую процедуру? Я искал через Google, но на самом деле ничего не имеет смысла для меня.
Я понимаю, как использовать начальную загрузку для расчета доверительных интервалов для параметров модели.
regression
bootstrap
prediction-interval
Максимум
источник
источник
Ответы:
Доверительные интервалы учитывают неопределенность оценки. Интервалы прогнозирования добавляют к этому фундаментальную неопределенность. R
predict.lm
даст вам интервал прогнозирования для линейной модели. Оттуда все, что вам нужно сделать, это запустить его несколько раз на загруженных сэмплах.Результатом
replicate
является трехмерный массив (n
х3
хn.bs
). Измерение длины 3 состоит из подогнанного значения для каждого элемента данных и нижних / верхних границ интервала прогнозирования 95%.Метод Гэри Кинга
В зависимости от того, что вы хотите, есть классный метод Кинга, Томза и Виттенберга . Это относительно легко реализовать и позволяет избежать проблем начальной загрузки для определенных оценок (например
max(Y)
).Я процитирую его определение фундаментальной неопределенности здесь, так как это довольно приятно:
источник
Начальная загрузка не предполагает каких-либо знаний о форме основного родительского распределения, из которого возникла выборка. Традиционные классические статистические оценки параметров основаны на предположении о нормальности. Bootstrap имеет дело с ненормальностью и более точен на практике, чем классические методы.
Самозагрузка заменяет вычислительную мощь компьютеров на строгий теоретический анализ. Это оценка распределения выборки члена ошибки набора данных. Начальная загрузка включает в себя: повторную выборку набора данных указанное количество раз, вычисление среднего значения для каждой выборки и поиск стандартной ошибки среднего.
Следующий код «R» демонстрирует концепцию:
Этот практический пример демонстрирует полезность начальной загрузки и оценивает стандартную ошибку. Стандартная ошибка необходима для расчета доверительного интервала.
Предположим, у вас есть перекос данных «а»:
визуализация искаженного набора данных
Выполните процедуру начальной загрузки:
источник