Рассмотрим следующий эксперимент: группе людей дается список городов, и их просят пометить соответствующие места на карте мира (без маркировки). Для каждого города вы получите разброс точек, примерно по центру соответствующего города. Некоторые города, скажем, Стамбул, будут демонстрировать меньше рассеяния, чем другие, скажем, Москва.
Предположим, что для данного города мы получаем набор двухмерных выборок , представляющих позицию города (например, в локальной системе координат) на карте, назначенной тестом. предмет . Я хотел бы выразить количество «дисперсии» точек в этом наборе в виде одного числа в соответствующих единицах (км).
Для одномерной задачи я бы выбрал стандартное отклонение, но есть ли двухмерный аналог, который можно разумно выбрать для ситуации, описанной выше?
источник
Ответы:
Одна вещь, которую вы можете использовать, - это мера расстояния от центральной точки, , например примерное среднее значение точек или, возможно, центр тяжести наблюдаемых точек. Тогда мерой дисперсии будет среднее расстояние от этой центральной точки:c=(c1,c2) (x¯¯¯,y¯¯¯)
где . Существует много возможных вариантов измерения расстояния, но разумным выбором может быть норма (например, евклидово расстояние): L 2zi={xi,yi} L2
Однако есть много других потенциальных вариантов. См. Http://en.wikipedia.org/wiki/Norm_%28matmatics%29.
источник
Хорошим справочником по метрикам для пространственного распределения точечных паттернов является руководство по CrimeStat (в частности, для этого вопроса будет интересна глава 4 ). Как и в метрической макрокоманде, стандартное отклонение расстояния аналогично стандартному двухмерному отклонению (единственное отличие состоит в том, что вы делите на «n-2», а не «n» в первой формуле, которую дал макрос).
Ваш примерный эксперимент на самом деле немного напоминает мне, как исследования оценивают географическое профилирование нарушителя , и, следовательно, метрики, используемые в этих работах, могут представлять интерес. В частности, термины «точность» и «точность» используются довольно редко и будут иметь отношение к исследованию. Предположения могут иметь небольшое стандартное отклонение (то есть точное), но все еще имеют очень низкую точность.
источник
Я думаю, что вы должны использовать «Расстояние Махаланобиса», а не евклидовы нормы расстояния, поскольку оно учитывает корреляцию набора данных и является «масштабно-инвариантным». Вот ссылка:
http://en.wikipedia.org/wiki/Mahalanobis_distance
Вы также можете использовать «Глубина полупространства». Это немного сложнее, но имеет много привлекательных свойств. Глубина полупространства (также известная как глубина местоположения) данной точки относительно набора данных P - это минимальное количество точек P, лежащих в любой замкнутой полуплоскости, определяемой линией через a. Вот ссылки:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
источник
Я недавно столкнулся с подобной проблемой. Похоже, вы хотите измерить, насколько хорошо точки разбросаны по области. Конечно, для данного измерения вы должны понимать, что если все точки находятся на прямой линии, ответ будет нулевым, поскольку нет двумерного многообразия.
Из расчетов, которые я сделал, я пришел к следующему:
В этом случае Sxx и Syy являются дисперсиями x и y соответственно, тогда как Sxy напоминает смешанную дисперсию x и y.
Чтобы уточнить, предполагая, что есть n элементов, и представляет среднее значение x, а представляет среднее значение y:Иксμ Yμ
Надеюсь, это должно работать для вас.
Кроме того, если вам интересно, как это сделать в более высоких измерениях, например, при измерении разброса объема или объема обертки в 4 измерениях, вы должны сформировать такую матрицу:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
... ... ... ...
И продолжайте столько раз, сколько вам нужно. Вы должны быть в состоянии выяснить значения S, учитывая приведенные выше определения, но для разных переменных.
Как только матрица сформирована, возьмите определитель, найдите квадратный корень, и все готово.
источник
Для этого конкретного примера - где есть заранее определенный «правильный» ответ - я бы перестроил координаты x / y в полярные координаты вокруг города, который их просили отметить на карте. Точность затем измеряется против радиальной составляющей (среднее значение, стандартное отклонение и т. Д.). «Средний угол» также может быть использован для измерения смещения.
Для себя я все еще ищу хорошее решение, когда нет заранее определенной центральной точки, и мне не нравится идея предварительного прохождения данных для создания центроида.
источник