Подгонка распределения к пространственным данным

10

Перекрестная публикация моего вопроса от mathoverflow, чтобы найти некоторую помощь по конкретной статистике.

Я изучаю физический процесс, генерирующий данные, которые красиво проецируются в два измерения с неотрицательными значениями. Каждый процесс имеет (спроецированную) дорожку из точек - - см. Изображение ниже.ИксY

Образцы треков выделены синим цветом, проблемный тип трека был нарисован вручную зеленым цветом, а проблемная область - красным: треки и регион, вызывающий озабоченность

Каждый трек является результатом независимого эксперимента. Двадцать миллионов экспериментов были проведены в течение нескольких лет, но из этих двух тысяч проявляется особенность, которую мы изображаем как трек. Мы занимаемся только экспериментами, которые генерируют треки, поэтому наш набор данных составляет (приблизительно) две тысячи треков.

Вполне возможно , для трека , чтобы войти в область беспокойства, и мы ожидаем порядка в дорожки , чтобы сделать это. Оценить это число - вопрос под рукой:1104

Как мы можем рассчитать вероятность попадания произвольной дорожки в интересующую область?

Невозможно проводить эксперименты достаточно быстро, чтобы увидеть, как часто генерируются треки, которые попадают в интересующую область, поэтому нам необходимо экстраполировать имеющиеся данные.

Например, мы подгоняли значения , но это недостаточно для обработки данных, таких как зеленая дорожка - кажется, необходимо иметь модель, охватывающую оба измерения.ИксY200

Мы установили минимальное расстояние от каждой трассы до района, в котором находится проблема, но мы не уверены, что это дает оправданный результат.

1) Есть ли известный способ приспособить распределение к данным этого типа для экстраполяции?

-или-

2) Есть ли очевидный способ использовать эти данные для создания модели для генерации треков? Например, используйте анализ главных компонентов на дорожках в качестве точек в большом пространстве, а затем подгоните распределение (Pearson?) К дорожкам, спроецированным на эти компоненты.

Джефф Снайдер
источник
1
Я не должен давать больше информации о конкретном процессе, но я обновлю вопрос, чтобы рассказать о том, как собираются данные.
Джефф Снайдер
1
Я обновил язык, чтобы попытаться быть более конкретным. Представьте, что мы бросаем камешки в открытое окно на верхнем этаже, и нам важно только, как камешки, проходящие через окно, подпрыгивают на полу внутри. Мы бросили миллионы камешков, и около 2000 прошли через окно. Когда галька проходит через окно, мы рисуем ее ход по полу. Учитывая, что галька проходит через окно, мы хотим оценить вероятность того, что он пройдет через область, вызывающую беспокойство.
Джефф Снайдер

Ответы:

1

Похоже, вы хотите смоделировать формирование треков, а затем провести симуляцию Монте-Карло, чтобы увидеть, сколько треков попадает в красную область. Для этого я сначала преобразовал бы линии в две функции, одна из которых задает направление, а другая - расстояние от одной точки до следующей на этой дорожке. Теперь вы можете изучить распределение вероятностей, связанных с этими двумя функциями. Например, вы можете обнаружить, что пройденное расстояние соответствует определенному распределению (будьте осторожны, чтобы распределение не менялось со временем). Если какая-либо переменная изменяется со временем, вам нужно углубиться в анализ временных рядов (извините, не мое поле).

Еще одна мысль, которая приходит на ум, заключается в том, что, поскольку направление движения в xy постепенно изменяется на большинстве дорожек, вам лучше изучить изменение направления относительно времени для дорожек.

Вам также нужно будет оценить вероятность того, что трек начинается с заданной координаты xy с заданным направлением. Возможно, вы захотите использовать оценку плотности ядра для сглаживания результирующего PDF-файла или, если кажется, что он соответствует распределению, для которого существует аналитическая модель, можно использовать максимизацию ожидания для подгонки этого распределения к данным.

Моделирование по методу Монте-Карло будет затем производить случайные выборки из этих распределений для имитации формы дорожек. Затем вам нужно смоделировать большое количество дорожек и посмотреть, как часто эти дорожки проходят через красную область. Это могут быть тысячи или миллионы треков, вам придется поэкспериментировать, чтобы увидеть, когда распределение перестает меняться, когда вы добавляете больше треков.

chippies
источник