Я нормально распределенные процессы , из которых я получаю небольшие образцы ( п , как правило , 10-30) , что я хочу использовать для оценки дисперсии. Но часто образцы находятся настолько близко друг к другу, что мы не можем измерить отдельные точки вблизи центра.
У меня есть смутное понимание того, что мы должны иметь возможность построить эффективную оценку с использованием упорядоченных выборок: например, если я знаю, что выборка содержит 20 точек, и что 10 группируются слишком близко к центру, чтобы проводить измерения по отдельности, но у меня есть дискретные измерения 5 с обеих сторон, существует ли стандартный / формульный подход для оценки дисперсии процесса, который позволяет оптимально использовать такие образцы?
(Обратите внимание, что я не думаю, что могу просто взвесить среднее значение по центру. Например, для 7 выборок возможно плотное скопление, в то время как еще три асимметрично смещены в одну сторону, но достаточно близко, мы не можем сказать это без более утомительной одиночной выборки. .)
Если ответ сложный, любые советы о том, что я должен исследовать, будут оценены. Например, это проблема порядка статистики? Может ли быть формальный ответ, или это вычислительная проблема?
Обновлены детали: приложение для анализа стрельбы по мишеням. Один базовый образец - это точка удара ( x, y ) одиночного выстрела по цели. Основной процесс имеет симметричное двумерное нормальное распределение, но корреляции между осями нет, поэтому мы можем рассматривать выборки { x } и { y } как независимые отрисовки из того же нормального распределения. (Можно также сказать, что основной процесс распределен по Рэлею, но мы не можем измерить выборочные вариации Рэлея, потому что мы не можем быть уверены в координатах «истинного» центра процесса, который при малых n может быть значительным от центра образца ( , ˉ y ).)
Нам дают цель и количество выстрелов в нее. Проблема в том, что при n >> 3 точные пушки обычно стреляют в «рваную дыру», окруженную четкими выстрелами. Мы можем наблюдать x- и y- ширину отверстия, но мы не знаем, где в отверстии воздействовали неразличимые выстрелы.
Вот несколько примеров более проблемных целей:
(Конечно, в идеальном мире мы меняли / меняли цели после каждого выстрела, а затем агрегировали образцы для анализа. Есть ряд причин, которые часто нецелесообразны, хотя это делается, когда это возможно .)
Я полагаю, что для облегчения решения будет проще всего свести его к набору одномерных выборок из нормали с центральным интервалом ширины w > d , где d - диаметр снаряда, содержащий c < n «цензурированных» образцов.
Ответы:
Это интересная проблема. Во-первых, я бы не делал предположения о нормальном распределении. Похоже, что вы действительно ищете какую-то оценку рассеивания, которую вы применяете справедливо ко многим различным стрелкам, оружию, боеприпасам или чему-то еще.
Я бы попробовал перевернуть это. Вы не знаете точно, куда попали все пули, если не видите 10 отдельных отверстий (при условии 10 выстрелов). Но ты же знаешь, куда они не пошли. Это можно использовать для ограничения распространения, исходя из байесовской статистики, если вы хотите начать с распределения.
Идея, которая может быть лучше всего, заключается в том, чтобы перестать пытаться делать это математически и просто делать что-то разумное, как это. Возьмите цель и запустите процедуру обработки изображения, чтобы отметить выстрел через область, которая может быть не связана. Измерьте среднее значение и второй момент этого и используйте эти оценки. Если вы хотите пойти немного дальше и попытаться гауссифицировать его, вы можете запустить простой эксперимент Монте-Карло, чтобы получить калибровочный коэффициент.
источник
С другой точки зрения, это можно увидеть в свете области пространственной статистики, которая создала ассортимент метрик, многие из которых были размещены в наборах инструментов (см., Например, https://www.google.com. /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
В Википедии (ссылка: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) на самом деле есть хорошая вводная страница, на которой обсуждаются такие понятия, как меры пространственной центральной тенденции и пространственной дисперсии. Чтобы процитировать Википедию на последнем:
«Для большинства применений пространственную дисперсию следует определять количественно способом, который не зависит от поворотов и отражений. Несколько простых мер пространственной дисперсии для набора точек могут быть определены с использованием ковариационной матрицы координат точек. Трасса, определитель и самое большое собственное значение ковариационной матрицы может использоваться в качестве меры пространственной дисперсии. Мера пространственной дисперсии, которая не основана на ковариационной матрице, представляет собой среднее расстояние между ближайшими соседями. [1] "
Связанные понятия включают в себя измерения пространственной однородности, функции К и L Рипли и, возможно, наиболее важные для анализа кластеров пуль, критерий Кузика – Эдвардса для кластеризации подгрупп в кластеризованных популяциях. Последний тест основан на сравнении (с использованием анализа «ближайшего соседа» для табулирования статистики) контрольной группы, которая в текущем контексте может основываться на фактических наблюдаемых целях, классифицированных как не отображающие кластеризацию, или в соответствии с теоретическим моделированием из скажем распределение Рэлея.
источник