У меня есть более 3000 векторов на двумерной сетке с приблизительно равномерным дискретным распределением. Некоторые пары векторов удовлетворяют определенному условию. Примечание: условие применимо только к парам векторов, а не к отдельным векторам. У меня есть список из примерно 1500 таких пар, назовем его группой 1. Группа 2 содержит все остальные пары векторов. Я хочу выяснить, значительно ли меньше расстояние между векторами в паре в группе 1, среднее расстояние между двумя векторами. Как я могу это сделать?
Статистический тест : применима ли центральная предельная теорема к моему случаю? То есть, могу ли я взять средства выборок расстояний и использовать t-критерий Стьюдента, чтобы сравнить средства выборок, которые удовлетворяют условию, со средствами выборок, которые не удовлетворяют условию? Иначе какой статистический тест здесь уместен?
Размер выборки и количество выборок : я понимаю, что здесь есть две переменные, для каждой из двух групп мне нужно взять n выборок размером m и взять среднее значение для каждой из выборок. Есть ли принципиальный способ выбрать n и m ? Должны ли они быть как можно больше? Или они должны быть как можно меньше, если они показывают статистическую значимость? Должны ли они быть одинаковыми для каждой из двух групп? Или они должны быть больше для группы 2, которая содержит намного больше векторных пар?
Ответы:
Вопрос «существенно» отличается всегда, всегда предполагает статистическую модель данных. Этот ответ предлагает одну из наиболее общих моделей, которая согласуется с минимальной информацией, представленной в вопросе. Короче говоря, он будет работать в самых разных случаях, но не всегда может быть самым мощным способом обнаружения различий.
Три аспекта данных действительно имеют значение: форма пространства, занимаемого точками; распределение точек в этом пространстве; и график, образованный точечными парами, имеющими «условие» - которое я назову группой «лечение». Под «графиком» я подразумеваю схему точек и взаимосвязей, подразумеваемых парами точек в группе лечения. Например, десять пар точек («ребер») графа могут включать до 20 различных точек или всего пять точек. В первом случае нет двух ребер, имеющих общую точку, тогда как во втором случае ребра состоят из всех возможных пар между пятью точками.
Чтобы определить, является ли среднее расстояние между ребрами в группе лечения «значительным», мы можем рассмотреть случайный процесс, в котором все точек случайным образом переставляются перестановкой . Это также переставляет ребра: ребро заменяется на . Нулевая гипотеза состоит в том, что группа обработки ребер возникает как одна из этих перестановок. Если это так, его среднее расстояние должно быть сопоставимо со средним расстоянием, указанным в этих перестановках. Мы можем довольно легко оценить распределение этих случайных средних расстояний, выбрав несколько тысяч всех этих перестановок.σ ( v i , v j ) ( v σ ( i ) , v σ ( j ) ) 3000 ! ≈ 10 21024n = 3000 σ ( vя, vJ) ( vσ( я ), vσ( J )) 3000 ! ≈ 1021024
(Следует отметить, что этот подход будет работать, только с небольшими изменениями, с любым расстоянием или даже с любой величиной, связанной с каждой возможной парой точек. Он также будет работать для любого суммирования расстояний, а не только для среднего значения.)
Чтобы проиллюстрировать это, вот две ситуации, включающие точек и ребер в группе лечения. В верхнем ряду первые точки в каждом ребре были случайным образом выбраны из точек, а затем вторые точки каждого ребра были независимо и случайно выбраны из точек, отличных от их первой точки. Всего в этих краях задействовано очков .28 100 100 - 1 39 28n=100 28 100 100−1 39 28
В нижнем ряду восемь из баллов были выбраны случайным образом. В ребер состоят из всех возможных пар из них.28100 28
Гистограммы справа показывают распределения выборки для случайных перестановок конфигураций. Фактические средние расстояния для данных отмечены вертикальными пунктирными красными линиями. Оба средства согласуются с распределением выборки: ни один не лежит далеко направо или налево.10000
Распределения выборки различаются: хотя в среднем средние расстояния одинаковы, изменение среднего расстояния больше во втором случае из-за графической взаимозависимости между краями. Это одна из причин, по которой нельзя использовать простую версию Центральной предельной теоремы: вычислить стандартное отклонение этого распределения сложно.
Вот результаты, сопоставимые с данными, описанными в вопросе: точек приблизительно равномерно распределены в квадрате, и их пар находятся в группе лечения. Расчеты заняли всего несколько секунд, демонстрируя их практичность.1500n=3000 1500
Пары в верхнем ряду снова были выбраны случайным образом. В нижнем ряду все края в группе обработки используют только точек, ближайших к нижнему левому углу. Их среднее расстояние настолько меньше распределения выборки, что это можно считать статистически значимым.56
Как правило, в качестве значения p этого непараметрического теста на перестановку может быть взята доля средних расстояний как от симуляции, так и от группы лечения, которые равны или превышают среднее расстояние в группе лечения .
Это
R
код, используемый для создания иллюстраций.источник
mean(c(sim, stat) <= stat)
либоmean(c(sim, stat) >= stat)
по необходимости.stat
от середины распределения, в любом направлении? Нечто подобноеp.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.