Если наилучшим линейным приближением (с использованием наименьших квадратов) моих точек данных является линия , как я могу рассчитать ошибку аппроксимации? Если я вычислю стандартное отклонение различий между наблюдениями и предсказаниями , могу ли я потом сказать, что действительное (но не наблюдаемое) значение принадлежит интервалу ( ) с вероятностью ~ 68%, предполагая нормальное распределение?
Чтобы уточнить:
Я сделал замечания относительно функции , оценив ее по некоторым точкам . Я подгоняю эти наблюдения к линии . Для который я не наблюдал, я хотел бы знать, насколько большим может быть . Используя метод выше, правильно ли сказать, что с prob. ~ 68%?
Ответы:
@whuber указал вам на три хороших ответа, но, возможно, я все еще могу написать что-то ценное. Ваш явный вопрос, насколько я понимаю, таков:
Учитывая мою подогнанную модель,y^i=m^xi+b^ (уведомление я добавил «шляпы»),и предполагаячто мои остатки нормально распределен,, можно предсказатьчто еще незаметный ответ,упеш, с известным значением предсказателя,хпхш, будет падатьпределах интервала( у -σе, у +σN(0,σ^2e) ynew xnew с вероятностью 68%?(y^−σe,y^+σe)
Интуитивно понятно, что ответ должен быть «да», но верный ответ может быть . Это будет случай, когда параметры (т.е. & σ ) известны и без ошибок. Поскольку вы оценили эти параметры, мы должны принять во внимание их неопределенность.m,b, σ
Давайте сначала подумаем о стандартном отклонении ваших остатков. Поскольку это оценивается по вашим данным, в оценке может быть некоторая ошибка. В результате распределение, которое вы должны использовать, чтобы сформировать интервал прогнозирования, должно быть , а не нормальным. Однако, поскольку t быстро сходится к норме, на практике это менее вероятно.tdf error t
Таким образом, мы можем использовать только у нового ± т ( 1 - α / 2 , ДФ ошибки ) s , вместо у нового ± г ( 1 - α / 2 ) S , и идти о нашем веселом пути? К сожалению нет. Большая проблема в том , что существует неопределенность в отношении вашей оценки условного среднего отклика в этом месте из - за неопределенности в ваши оценки т и б . Таким образом,y^new±t(1−α/2, df error)s y^new±z(1−α/2)s m^ b^ стандартное отклонение ваших прогнозов должно включать в себя больше , чем просто serror . Из - за отклонения добавить , оцененная дисперсия предсказаний будет:
Обратите внимание , что « х » является индексируются для представления значения , специфичного для нового наблюдение, и что " s 2 " соответственно подписан. То есть ваш интервал прогнозирования зависит от местоположения нового наблюдения вдоль х
Вычислив правильное значение таким образом, мы можем затем использовать его с соответствующим распределением как отмечено выше.t
источник