У меня есть набор данных событий, которые произошли за тот же период времени. Каждое событие имеет тип (есть несколько разных типов, меньше десяти) и местоположение, представленное в виде 2D-точки.
Я хотел бы проверить, есть ли какая-либо корреляция между типами событий, или между типом и местоположением. Например, может быть, события типа A обычно не происходят там, где происходят события типа B. Или, может быть, в какой-то области, в основном, есть события типа C.
Какие инструменты я могу использовать для этого? Будучи новичком в статистическом анализе, моя первая идея состояла в том, чтобы использовать какой-либо PCA (Анализ основных компонентов) в этом наборе данных, чтобы увидеть, имеет ли каждый тип события свой собственный компонент, или, может быть, некоторые имеют одинаковый (то есть коррелированный)?
Я должен упомянуть, что мой набор данных имеет порядок 500 000 точек , что усложняет задачу.
РЕДАКТИРОВАТЬ: Как отмечается в ответах ниже и в комментариях, можно смоделировать этот процесс как отмеченный точечный процесс, а затем использовать R для выполнения всей тяжелой работы, как подробно описано в этом отчете семинара: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Ответы:
Тип данных, который вы описываете, обычно называют «паттернами отмеченных точек», у R есть представление задач для пространственной статистики, которое предлагает много хороших пакетов для этого типа анализа, большинство из которых, вероятно, не в состоянии иметь дело с такими огромными данными, которые вы иметь :(
Это два довольно разных типа вопросов: второй задает вопрос о позиционировании одного типа знака / события. Ключевые слова для поиска в этом контексте - это оценка интенсивности или оценка K-функции, если вы заинтересованы в обнаружении паттернов кластеризации (события определенного типа, как правило, группируются вместе) или отталкивания (события такого рода, как правило, разделяются). Первый спрашивает о корреляции между различными типами событий. Обычно это измеряется с помощью меток корреляционных функций.
Я думаю, что дополнительная выборка данных для получения более гибкого размера данных опасна (см. Комментарий к ответу @ hamner), но, возможно, вы могли бы объединить свои данные: разделите окно наблюдения на управляемое количество ячеек одинакового размера и сведите в таблицу число событий в каждый. Затем каждая ячейка описывается расположением ее центра и 10 векторов отсчетов для ваших 10 типов отметок. Вы должны быть в состоянии использовать стандартные методы для отмеченных точечных процессов в этом агрегированном процессе.
источник
Во-первых, размер набора данных. Я рекомендую взять небольшие, пригодные для выборки выборки набора данных (либо путем случайного выбора N точек данных, либо путем случайного выбора нескольких относительно небольших прямоугольников в плоскости XY и взятия всех точек, попадающих в эту плоскость), а затем оттачивать свои методы анализа в этом подмножестве. Если у вас есть представление о форме анализа, которая работает, вы можете применить ее к более крупным частям набора данных.
PCA в основном используется как метод уменьшения размерности; Ваш набор данных имеет только три измерения (одно из которых является категориальным), поэтому я сомневаюсь, что оно применимо здесь.
Попробуйте поработать с Matlab или R, чтобы визуализировать точки, которые вы анализируете в плоскости XY (или их относительную плотность при работе со всем набором данных), как для отдельных типов, так и для всех типов вместе взятых, и увидеть, какие шаблоны появляются визуально. Это может помочь провести более тщательный анализ.
источник