Можем ли мы сделать вероятностные утверждения с интервалами прогнозирования?

12

Я прочитал много отличных обсуждений на сайте относительно интерпретации доверительных интервалов и интервалов прогнозирования, но одна концепция все еще немного озадачивает:

Рассмотрим структуру OLS, и мы получили подходящую модель . Нам дали и попросили предсказать его ответ. Мы вычисляем и, в качестве бонуса, мы также предоставляем интервал прогнозирования 95% вокруг нашего прогноза, в виде получения формулы для пределов прогнозирования в линейной модели . Давайте назовем этот интервал прогнозирования PI.Y^знак равноИксβ^Икс*Икс*Tβ^

Теперь, что из следующего (или ни одного) является правильной интерпретацией PI?

  1. В частности, для лежит в пределах PI с вероятностью 95%.Икс*Y(Икс*)
  2. Если нам дадут большое количество s, эта процедура для вычисления PI будет покрывать истинные ответы в 95% случаев.Икс

Из формулировки @ gung в интервале прогнозирования линейной регрессии кажется, что первое верно (хотя я вполне мог бы неправильно истолковать его). Интерпретация 1 кажется мне нелогичной (в том смысле, что мы делаем байесовские выводы из частотного анализа), но если это правильно, это потому , что мы предсказывали на реализацию случайной величины VS. оценивающего с параметром ?

(Изменить) Бонусный вопрос: предположим, что мы знали, что такое истинная , то есть процесс, генерирующий данные, тогда сможем ли мы говорить о вероятностях в отношении какого-либо конкретного прогноза, поскольку мы просто смотрим на ?βε

Моя последняя попытка сделать это: мы можем «концептуально разложить» (используя слово очень свободно) интервал прогнозирования на две части: (A) доверительный интервал вокруг предсказанного среднего ответа и (B) набор интервалов, которые являются просто квантильными диапазоны погрешности. (B) мы можем делать вероятностные заявления, при условии, что мы знаем истинное прогнозируемое среднее, но в целом мы можем рассматривать интервалы прогнозирования как частые КИ вокруг прогнозируемых значений. Это несколько правильно?

kevinykuo
источник
Ответ, который я написал на stats.stackexchange.com/a/26704, подразумевает, что что-то вроде (2) имеет место (согласно законам больших чисел), но определенно нет (1).
whuber

Ответы:

5

Во-первых, при использовании слова «вероятность» у часто встречающихся не возникает проблем с использованием слова «вероятность» при прогнозировании чего-то, где случайный фрагмент еще не произошел. Нам не нравится слово вероятность для доверительного интервала, потому что истинный параметр не меняется (мы предполагаем, что это фиксированное, хотя и неизвестное) значение, а интервал фиксирован, потому что он основан на данных, которые мы уже собрали. Например, если наши данные взяты из случайной выборки взрослых людей мужского пола, а x - это их рост, а y - их вес, и мы подходим к общей модели регрессии, тогда мы не используем вероятность, когда говорим о доверительных интервалах. Но если я хочу поговорить о том, какова вероятность того, что мужчина ростом 65 дюймов будет выбран случайным образом из всех мужчин ростом 65 дюймов, имеющих вес в течение определенного интервала,

Поэтому я бы сказал, что ответом на бонусный вопрос является «Да». Если бы мы знали достаточно информации, то мы могли бы вычислить вероятность увидеть значение y в пределах интервала (или найти интервал с желаемой вероятностью).

Для вашего утверждения помечены «1». Я бы сказал, что это нормально, если вы используете слово «приблизительный», когда говорите об интервале или вероятности. Как вы упомянули в бонусном вопросе, мы можем разложить неопределенность на кусочек о центре предсказания и кусочек о случайности вокруг истинного среднего. Когда мы объединяем их, чтобы покрыть всю нашу неопределенность (и при условии, что у нас правильная модель / нормальность), у нас будет интервал, который будет иметь тенденцию быть слишком широким (хотя может быть и слишком узким), поэтому вероятность появления новой случайно выбранной точки попадание в интервал прогнозирования не будет точно 95%. Вы можете увидеть это с помощью симуляции. Начните с известной регрессионной модели со всеми известными параметрами. Выберите образец (по многим значениям x) из этого отношения, поместите регрессию, и вычислить интервал (ы) прогнозирования. Теперь снова сгенерируйте большое количество новых точек данных из истинной модели и сравните их с интервалами прогнозирования. Я сделал это несколько раз, используя следующий код R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Я запускал приведенный выше код несколько раз (около 10, но я не вел тщательный подсчет), и большую часть времени доля новых значений, попадающих в интервалы, находилась в диапазоне от 96% до 98%. У меня был один случай, когда предполагаемое стандартное отклонение было очень низким, когда пропорции были в диапазоне от 93% до 94%, но все остальные были выше 95%. Поэтому я был бы рад вашему заявлению 1 с изменением на «примерно 95%» (при условии, что все предположения верны или достаточно близки, чтобы их можно было охватить приблизительно).

Точно так же утверждение 2 нуждается в «приблизительно» или подобном, потому что для покрытия нашей неопределенности мы собираем в среднем более 95%.

Грег Сноу
источник
0

Второе лучше. Первое зависит от того, какая другая информация известна.

Используя случайный пример, это правда, что «95% интервалов (с доверительной вероятностью 95%) будут включать в себя истинное среднее значение [insert variable]».

С другой стороны, если результат явно нелогичен, мы не можем утверждать (1).

Например, «мой тест значимости на 95% достоверности показывает, что рост и вес отрицательно коррелируют». Ну, это, очевидно, неверно, и мы не можем сказать, что существует «95% вероятность, что это правда». На самом деле, принимая во внимание предшествующее знание, очень малая вероятность того, что это правда. Это, однако, можно утверждать , что «95% таких тестов бы дали правильный результат.»


источник
1
Этот ответ, кажется, обсуждает доверительные интервалы, а не интервалы прогнозирования.
uber
@whuber Тот же принцип применяется. По сути, мы имеем дело с доверительными интервалами для определенной переменной («прогнозируемой» переменной).
2
Существует важное различие между фиксированным значением (например, параметром) и значением случайной величины. Более того, суть настоящего вопроса заключается в этом различии: что можно сказать о вероятности этого («будущего») случайного исхода? Поэтому представляется неадекватным - и, возможно, вводящим в заблуждение - рассматривать этот вопрос как вопрос о значении доверия.
uber
@whuber Утверждение (2) в посте все еще не подразумевает утверждение (1). Как и в моем примере, прогноз, противоречащий очевидной интуиции / базовым знаниям, не подразумевает, что будущие результаты имеют 95% -ную вероятность падения в ИП. Это правда, что этот процесс в 95% случаев даст ИП, содержащие будущие результаты. Но иногда можно определить, когда это произошло или не произошло.
Вы правы, но если я правильно читаю ваш комментарий, я подозреваю, что он не соответствует сути. Проблема заключается не в том, что (по замыслу) ИП имеет только 95% -ную вероятность покрытия будущей ценности или того, что дополнительные данные (или интуиция) могут дать больше информации. Рассматриваемый нами вопрос касается возможности интерпретации PI с точки зрения условной вероятности для будущего значения (на основе значений регрессии). Это действительно интерпретация байесовского ИП, как отмечает ОП, но она недопустима для частого ИП.
whuber