Интервалы прогнозирования и толерантности

11

У меня есть пара вопросов для прогнозирования и интервалов терпимости.

Давайте сначала договоримся об определении интервалов толерантности: нам дают уровень достоверности, скажем, 90%, процент населения, подлежащего отбору, скажем, 99%, и размер выборки, скажем, 20. Распределение вероятностей известно, скажем, нормально для удобства. Теперь, учитывая вышеприведенные три числа (90%, 99% и 20) и тот факт, что базовое распределение является нормальным, мы можем вычислить число допусков . Для выборки со средним значением и стандартным отклонением интервал допуска составляет . Если этот интервал допуска охватывает 99% населения, то выборка называется успешной( х 1 , х 2 , ... , х 20 ) ˉ х с ˉ х ± к с ( х 1 , х 2 , ... , х 20 )k(x1,x2,,x20)x¯sx¯±ks(x1,x2,,x20)и требование состоит в том, чтобы 90% образцов были успешными .

Комментарий: 90% - это априорная вероятность успеха образца. 99% - это условная вероятность того, что будущее наблюдение будет в интервале допуска, учитывая, что выборка является успешной.

Мои вопросы: можем ли мы видеть интервалы предсказания как интервалы терпимости? Просматривая в Интернете, я получил противоречивые ответы на этот вопрос, не говоря уже о том, что никто точно не определил интервалы прогнозирования. Итак, если у вас есть точное определение интервала прогнозирования (или ссылка), я был бы признателен.

Я понял, что интервал прогнозирования 99%, например, не охватывает 99% всех будущих значений для всех выборок. Это будет то же самое, что и интервал допуска, который охватывает 99% населения с вероятностью 100%.

В определениях, которые я нашел для 90% -ного интервала прогнозирования, 90% - это априорная вероятность для данной выборки, скажем, (размер фиксирован) и одно будущее наблюдение , которое будет в интервале прогнозирования. Таким образом, кажется, что и выборка, и будущая стоимость даются одновременно, в отличие от интервала допуска, где предоставляется выборка, и с определенной вероятностью это успех , и при условии, что выборка успеху у(x1,x2,,x20)yyопределяется будущее значение и с определенной вероятностью попадает в интервал допуска. Я не уверен, является ли приведенное выше определение интервала предсказания правильным или нет, но оно кажется нелогичным (по крайней мере).

Любая помощь?

Иоаннис Соулдатос
источник
4
Односторонние интервалы допуска для нормальной выборки могут помочь в понимании этого понятия. Верхняя граница допуска является ничем иным, как верхней доверительной границей 99 % квантиля предполагаемого распределения модели. Поэтому в случае нормального распределения это верхняя доверительная граница параметра μ + k σ, где k = z 99 % составляет 99 % от стандартного распределения Гаусса. 99%99%μ+kσk=z99%99%
Стефан Лоран
Это хорошая переформулировка, Стефан, потому что она сразу показывает, что есть несколько видов допустимых пределов: можно запросить верхний доверительный предел для , для более низкого доверительного предела для μ + z 0,99 σ или для ( скажем) объективная оценка этого параметра. Все три в литературе называются «пределами толерантности». μ+z0.99σμ+z0.99σ
whuber
Я думаю, что вы скорее хотели бы сказать более низкий доверительный интервал для ? μz0.99σ
Стефан Лоран
2
На самом деле, нет, Стефан (именно поэтому я позаботился о том, чтобы повторить формулу для параметра). Есть также три аналогичных определения для нижнего предела допуска. Например, мы могли бы под -оценкой верхней 99 - й процентиль населения, но контролировать количество недооценки мы настаиваем там быть (скажем) на 5% вероятность того, что наша занижена еще будет слишком высокой. Это позволит нам сказать что-то вроде: «Данные показывают, с уверенностью 95%, что 99-й процентиль населения превышает такую-то величину».
whuber

Ответы:

14

Ваши определения кажутся правильными.

Книга консультируйтесь этих вопросах Интервалы статистический (Gerald Hahn & William Meeker), 1991. Я цитирую:

Интервал прогнозирования для одного будущего наблюдения - это интервал, который с заданной степенью достоверности будет содержать следующее (или другое заранее заданное) случайно выбранное наблюдение из популяции.

[A] интервал толерантности - это интервал, который, как можно утверждать, содержит, по меньшей мере, определенную долю p популяции с заданной степенью достоверности .100(1α)%

Вот пересказ в стандартной математической терминологии. Пусть данные считаются реализацией независимых случайных величин X = ( X 1 , , X n ) с общей интегральной функцией распределения F θ . ( θ является напоминанием о том, что F может быть неизвестным, но предполагается, что он лежит в данном наборе распределений F θ | θ Θ ). Пусть Х 0x=(x1,,xn)X=(X1,,Xn)FθθFFθ|θΘX0быть другой случайной величиной с тем же распределением и независимым от первых n переменных.Fθn

  1. Интервал предсказания (для одного наблюдения в будущем), определяется конечными точками , имеет определяющее свойство , что[l(x),u(x)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1α)%.

    В частности, относится к распределению n + 1 переменных ( X 0 , X 1 , , X n ), определяемому по закону F θ . Обратите внимание на отсутствие каких-либо условных вероятностей: это полная совместная вероятность. Также обратите внимание на отсутствие какой-либо ссылки на временную последовательность: очень хорошо может наблюдаться X 0 во времени перед другими значениями. Это не имеет значения.Prθn+1(X0,X1,,Xn)FθX0

    Я не уверен, какой аспект (ы) этого может быть "нелогичным". Если мы планируем выбрать статистическую процедуру в качестве действия, которое необходимо выполнить перед сбором данных, то это естественная и разумная формулировка запланированного двухэтапного процесса, потому что оба данных ( ) и «будущее значение» X 0 должно быть смоделировано как случайное.Xi,i=1,,nX0

  2. Интервал допуска, определяется конечными точками , имеет определяющее свойство , что(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))Fθ(L(X))p)}=100(1α)%.

    Обратите внимание на отсутствие какой-либо ссылки на : это не играет никакой роли.X0

Когда является множеством нормальных распределений, существуют интервалы прогнозирования в форме{Fθ}

L(Икс)знак равноИкс¯-К(α,N)s,U(Икс)знак равноИкс¯+К(α,N)s

( - среднее значение по выборке, а s - стандартное отклонение по выборке). Значения функции k , которые табулируют Hahn & Meeker, не зависят от данных x . Существуют и другие процедуры интервалов прогнозирования, даже в нормальном случае: они не единственные.Икс¯sКИкс

Точно так же существуют интервалы допуска формы

L(Икс)знак равноИкс¯-К(α,N,п)s,U(Икс)знак равноИкс¯+К(α,N,п)s,

Существуют и другие процедуры интервала допуска : они не единственные.

Отмечая сходство между этими парами формул, мы можем решить уравнение

К(α,N)знак равноК(α',N,п),

α'пαα'п

Whuber
источник
2
Путаница между этими интервалами реальна. Десять лет назад у меня было несколько трудных разговоров с государственным статистиком, который не знал о разнице и (яростно) не мог ее распознать. Ее выдающаяся роль в создании руководства, проверке отчетов, консультировании сотрудников, распространении программного обеспечения и даже рецензируемой публикации способствовала продолжению этих заблуждений. Так что будьте осторожны!
whuber
Очень хороший ответ, спасибо. Я был уверен, что некоторые статистики говорят, что интервал прогнозирования - это интервал допуска с . Есть ли реальный факт за эту идею? Другими словами, правда ли, что k ( α , n ) = K ( α , n , 0.5 ) или что-то в этом роде? пзнак равно50%К(α,N)знак равноК(α,N,0,5)
Стефан Лоран
3
Nпзнак равно50%Икс0
К(α,N)К(50%,N,1-α)NК50%Z1-α/N
@whuber. Спасибо за ответ. Я должен убедиться, что я понимаю это, прежде чем я отмечу это правильно. Дайте мне немного времени, чтобы "переварить" это.
Иоаннис Соулдатос