это похоже на очень наивный вопрос, но мне трудно увидеть ответ.
У меня есть один набор из 30 значений. Самостоятельно я получил 31-е значение. Нулевая гипотеза состоит в том, что 31-е значение является частью одного и того же распределения. Альтернатива в том, что это другое. Я хочу какую-то p-величину или меру вероятности.
Некоторые мысли у меня были:
- Это похоже на желание выполнить t-тест из двух выборок - за исключением того, что для второй выборки у меня есть только одно значение, а 30 значений не обязательно распределяются нормально.
- Если бы вместо 30 измерений у меня было 10000 измерений, ранг одного измерения мог бы дать некоторую полезную информацию.
Как я могу рассчитать эту вероятность или р-значение?
Спасибо! Янник
hypothesis-testing
bayesian
t-test
Янник Вурм
источник
источник
Ответы:
В одномодальном случае неравенство Высочанского-Петунина может дать вам приблизительный интервал прогнозирования. Вот сайт википедии: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
Использование приведет к приблизительному интервалу прогнозирования 95%.λ = 3
Таким образом, вы оцениваете среднее и стандартное отклонение вашей популяции и просто используете выборочное среднее значение плюс или минус качестве интервала. 3сИкс¯ 3 с
Есть несколько проблем с этим подходом. Вы действительно не знаете среднее значение или стандартное отклонение; вы используете оценки. И вообще, у вас не будет унимодальных распределений, то есть вам придется использовать специализированные версии неравенства Чебышева. Но, по крайней мере, у вас есть отправная точка.
В общем случае Конейн (Американский статистик, февраль 1987 г.) утверждает, что статистика порядка может использоваться в качестве интервала прогнозирования. Таким образом, - это интервал прогнозирования для с тем, что Конийн называет размеромРазмер определяется как «наибольшая нижняя граница (относительно набора допустимых совместных распределений) вероятности того, что интервал покроет значение, которое должен принять ». При таком подходе интервал прогнозирования 93,6% будет X j - i[ х( я ), х( J )] Икс Х[хJ - яN + 1, Икс [ х( 1 ),х( 30 )] .
Он также дает подход, приписываемый Saw, Yang и Mo: подробности об освещении приведены в статье.
Например, при использование даст покрытие, превышающее 90%.λ = 3,2n = 30 , λ = 3,2
источник
Правильный. Идея немного похожа на t-критерий с одним значением. Поскольку распределение неизвестно, и нормальность только с 30 точками данных может быть немного трудно проглотить, это требует некоторого непараметрического теста.
Даже с 30 измерениями ранг может быть информативным.
Как указал @whuber, вам нужен некоторый интервал прогнозирования. Что касается непараметрического случая, то, по сути, вы спрашиваете следующее: какова вероятность того, что данная точка данных будет случайно иметь ранг, который мы наблюдаем для вашего 31-го измерения?
Это можно решить с помощью простого теста перестановки. Вот пример с 15 значениями и романом (16-е наблюдение), который на самом деле больше, чем любой из предыдущих:
Мы выполняем N перестановок, где порядок элементов в списке перетасовывается, затем задаем вопрос: каков ранг для значения первого элемента в (перетасованном) списке?
Выполнение N = 1000 перестановок дает нам 608 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (фактически равного, поскольку новое значение является лучшим). Запустив симуляцию снова для 1000 перестановок, мы получаем 658 таких случаев, затем 663 ...
Если мы выполним N = 1 000 000 перестановок, мы получим 62825 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (дальнейшее моделирование дает 62871 дел, а затем 62840 ...). Если взять соотношение между случаями, в которых выполняется условие, и общим числом перестановок, мы получим числа, такие как 0,062825, 0,062871, 0,06284 ...
Вы можете видеть, что эти значения сходятся к 1/16 = 0,0625 (6,25%), что, как отмечает @whuber, представляет собой вероятность того, что заданное значение (из 16), выбранное случайным образом, имеет наилучший возможный ранг среди них.
Для нового набора данных, где новое значение является вторым лучшим значением (т. Е. Ранг 2):
мы получаем (для N = 1 000 000 перестановок): 125235, 124883 ... благоприятные случаи, которые, опять же, аппроксимируют вероятность того, что данное значение (из 16), выбранное случайным образом, будет иметь второй наилучший ранг среди них: 2/16 = 0,125 (12,5%).
источник