Соответствует ли это единственное значение тому распределению?

10

это похоже на очень наивный вопрос, но мне трудно увидеть ответ.

У меня есть один набор из 30 значений. Самостоятельно я получил 31-е значение. Нулевая гипотеза состоит в том, что 31-е значение является частью одного и того же распределения. Альтернатива в том, что это другое. Я хочу какую-то p-величину или меру вероятности.

Некоторые мысли у меня были:

  • Это похоже на желание выполнить t-тест из двух выборок - за исключением того, что для второй выборки у меня есть только одно значение, а 30 значений не обязательно распределяются нормально.
  • Если бы вместо 30 измерений у меня было 10000 измерений, ранг одного измерения мог бы дать некоторую полезную информацию.

Как я могу рассчитать эту вероятность или р-значение?

Спасибо! Янник

Янник Вурм
источник
4
Вы просите интервал прогнозирования . Ваша вторая мысль приводит к непараметрическим интервалам предсказания (которые, я считаю, ранее не упоминались на этом сайте).
whuber
Что еще вы можете рассказать нам о вашем населении? Все ли ценности положительны? Вы ожидаете, что это будет симметрично? Унимодальный?
Soakley
Спасибо и извинения, я должен был предоставить больше информации. Мы смотрим на интервалы прогнозирования. В основном у нас есть длина предсказания фокального гена. И длины подобных генов найдены в базах данных. Таким образом, все числа являются положительными целыми числами. В простом случае распределение длин унимодально. В действительности они часто не; на этом этапе мы можем предположить, что это так. Некоторые графики распространения показаны здесь: github.com/monicadragan/gene_prediction/tree/master/…
Янник Вурм,
Я не уверен, что нам нужен «интервал прогнозирования». Мы не хотим прогнозировать ... и нам не нужен интервал ...?
Янник Вурм
1
Не переусердствуйте с техническими терминами. По определению, «интервал прогнозирования» строится из значений таким образом, что при предполагаемом совместном распределении всех значений вероятность того, что 31-е значение находится в пределах равна заданной цели, такой как 95%. Если, на самом деле, 31-е значение не лежит в пределах , вы можете заключить, что либо (i) вам не повезло (у вас было всего 5% шансов произойти до того, как вы собрали данные), либо (ii) на самом деле это не так случай, когда 31-е значение имеет распределение, которое вы предположили, что оно имело: и это то, что вы хотите проверить. 30 31 я яя3031яя
whuber

Ответы:

7

В одномодальном случае неравенство Высочанского-Петунина может дать вам приблизительный интервал прогнозирования. Вот сайт википедии: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Использование приведет к приблизительному интервалу прогнозирования 95%.λзнак равно3

Таким образом, вы оцениваете среднее и стандартное отклонение вашей популяции и просто используете выборочное среднее значение плюс или минус качестве интервала. 3сИкс¯3s

Есть несколько проблем с этим подходом. Вы действительно не знаете среднее значение или стандартное отклонение; вы используете оценки. И вообще, у вас не будет унимодальных распределений, то есть вам придется использовать специализированные версии неравенства Чебышева. Но, по крайней мере, у вас есть отправная точка.

В общем случае Конейн (Американский статистик, февраль 1987 г.) утверждает, что статистика порядка может использоваться в качестве интервала прогнозирования. Таким образом, - это интервал прогнозирования для с тем, что Конийн называет размеромРазмер определяется как «наибольшая нижняя граница (относительно набора допустимых совместных распределений) вероятности того, что интервал покроет значение, которое должен принять ». При таком подходе интервал прогнозирования 93,6% будет X j - i[Икс(я),Икс(J)]ИксХ[хJ-яN+1,Икс[Икс(1),Икс(30)],

Он также дает подход, приписываемый Saw, Yang и Mo: подробности об освещении приведены в статье.

[Икс¯-λ(1+1N)1/2s , Икс¯+λ(1+1N)1/2s],

Например, при использование даст покрытие, превышающее 90%.λ = 3,2Nзнак равно30,λзнак равно3,2

soakley
источник
Представляется , что это неправильное применение неравенства: предполагается, что среднее значение и дисперсия известны , где дисперсия может быть оценена только по данным в этом контексте. Разница может быть огромной, особенно с небольшими наборами данных. В своих имитационных исследованиях подобных предложений с неравенством Чебышева я обнаружил потрясающе низкую производительность. Интуитивно понятно, что это похоже на понимание Стьюдента о том, что для построения КИ следует использовать распределение t вместо нормального распределения; потому что PI гораздо дальше "там" в хвостах, разница увеличивается.
whuber
2
2/316,456,45
1

Некоторые мысли у меня были:

Это похоже на желание выполнить t-тест из двух выборок - за исключением того, что для второй выборки у меня есть только одно значение, а 30 значений не обязательно распределяются нормально.

Правильный. Идея немного похожа на t-критерий с одним значением. Поскольку распределение неизвестно, и нормальность только с 30 точками данных может быть немного трудно проглотить, это требует некоторого непараметрического теста.

Если бы вместо 30 измерений у меня было 10000 измерений, ранг одного измерения мог бы дать некоторую полезную информацию.

Даже с 30 измерениями ранг может быть информативным.

Как указал @whuber, вам нужен некоторый интервал прогнозирования. Что касается непараметрического случая, то, по сути, вы спрашиваете следующее: какова вероятность того, что данная точка данных будет случайно иметь ранг, который мы наблюдаем для вашего 31-го измерения?

Это можно решить с помощью простого теста перестановки. Вот пример с 15 значениями и романом (16-е наблюдение), который на самом деле больше, чем любой из предыдущих:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Мы выполняем N перестановок, где порядок элементов в списке перетасовывается, затем задаем вопрос: каков ранг для значения первого элемента в (перетасованном) списке?

Выполнение N = 1000 перестановок дает нам 608 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (фактически равного, поскольку новое значение является лучшим). Запустив симуляцию снова для 1000 перестановок, мы получаем 658 таких случаев, затем 663 ...

Если мы выполним N = 1 000 000 перестановок, мы получим 62825 случаев, в которых ранг первого элемента в списке равен или лучше ранга нового значения (дальнейшее моделирование дает 62871 дел, а затем 62840 ...). Если взять соотношение между случаями, в которых выполняется условие, и общим числом перестановок, мы получим числа, такие как 0,062825, 0,062871, 0,06284 ...

Вы можете видеть, что эти значения сходятся к 1/16 = 0,0625 (6,25%), что, как отмечает @whuber, представляет собой вероятность того, что заданное значение (из 16), выбранное случайным образом, имеет наилучший возможный ранг среди них.

Для нового набора данных, где новое значение является вторым лучшим значением (т. Е. Ранг 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

мы получаем (для N = 1 000 000 перестановок): 125235, 124883 ... благоприятные случаи, которые, опять же, аппроксимируют вероятность того, что данное значение (из 16), выбранное случайным образом, будет иметь второй наилучший ранг среди них: 2/16 = 0,125 (12,5%).

pythiest
источник