Вопросы с тегом «distance»

13
Как я могу преобразовать расстояние (евклидово) в показатель сходства

Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это...

13
Выполняется ли неравенство треугольника для этих корреляционных расстояний?

Для иерархической кластеризации я часто вижу следующие две «метрики» (они точно не говорят) для измерения расстояния между двумя случайными переменными XXX и YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align}...

13
Есть ли вероятностное расстояние, которое сохраняет все свойства метрики?

Изучая расстояние Кульбака – Лейблера, мы очень быстро узнаем две вещи: оно не учитывает ни неравенство треугольника, ни симметрию, требуемые свойства метрики. Мой вопрос заключается в том, есть ли метрика функций плотности вероятности, которые удовлетворяют всем ограничениям метрики...

13
Какова цель нормализации строк

Я понимаю причину нормализации столбцов, поскольку она приводит к одинаковому взвешиванию объектов, даже если они не измеряются в одном и том же масштабе - однако часто в литературе ближайшего соседа столбцы и строки нормализуются. Что такое нормализация строк для / почему нормализация строк? В...

13
Как расстояние Гауэра вычисляет разницу между двоичными переменными?

У меня есть 17 числовых и 5 двоичных (0-1) переменных, с 73 выборками в моем наборе данных. Мне нужно запустить кластерный анализ. Я знаю, что расстояние Гауэра является хорошим показателем для наборов данных со смешанными переменными. Однако я не мог понять, как расстояние Гауэра рассчитывает...

12
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций

У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом...

12
Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал...

12
Статистическая значимость разницы между расстояниями

У меня есть более 3000 векторов на двумерной сетке с приблизительно равномерным дискретным распределением. Некоторые пары векторов удовлетворяют определенному условию. Примечание: условие применимо только к парам векторов, а не к отдельным векторам. У меня есть список из примерно 1500 таких пар,...

12
Каково расстояние между конечной гауссовой смесью и гауссовой?

Предположим, у меня есть смесь конечного числа гауссиан с известными весами, средними и стандартными отклонениями. Средства не равны. Конечно, можно рассчитать среднее и стандартное отклонение смеси, поскольку моменты представляют собой средневзвешенные значения моментов компонентов. Смесь не...

11
Какие остатки и расстояние Кука используются для GLM?

Кто-нибудь знает, какова формула расстояния Кука? В оригинальной формуле расстояния Кука используются нечеткие невязки, но почему R использует стандартное отклонение. Остатки Пирсона при расчете расстояния Кука для GLM. Я знаю, что для GLM не определены стедентифицированные невязки, но как выглядит...

11
Теорема Мерсера работает наоборот?

У коллеги есть функция и для наших целей это черный ящик. Функция измеряет сходство s ( a , b ) двух объектов.ssss(a,b)s(a,b)s(a,b) Мы точно знаем, что обладает следующими свойствами:sss Значения сходства представляют собой действительные числа от 0 до 1 включительно. Только объекты, которые...

11
Какое расстояние использовать? например, Манхэттен, евклидов, Брей-Кертис и т. д.

Я не эколог сообщества, но в настоящее время я работаю над данными по экологии сообщества. Я не мог понять, кроме математики этих расстояний, критерии для каждого используемого расстояния и в каких ситуациях его можно применять. Например, что использовать с данными подсчета? Как преобразовать угол...

11
Обобщенные линейные смешанные модели: диагностика

У меня случайная перехват логистической регрессии (из-за многократных измерений), и я хотел бы провести некоторую диагностику, особенно в отношении выбросов и влиятельных наблюдений. Я посмотрел на остатки, чтобы увидеть, есть ли наблюдения, которые выделяются. Но я также хотел бы взглянуть на...

11
Каковы расстояния между переменными, составляющими ковариационную матрицу?

У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n × nn×nn \times nКkk Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной...

10
K-среднее по косинусу сходства против евклидова расстояния (LSA)

Я использую скрытый семантический анализ для представления совокупности документов в пространстве меньшего размера. Я хочу сгруппировать эти документы в две группы с помощью k-средних. Несколько лет назад я сделал это с помощью gensim Python и написал свой собственный алгоритм k-средних. Я...

10
Динамическое искажение времени для нерегулярных временных рядов

В последнее время я много читал о динамической деформации времени (DTW). Я очень удивлен, что вообще нет литературы по применению DTW к нерегулярным временным рядам, или, по крайней мере, я не смог ее найти. Кто-нибудь может дать мне ссылку на что-то, связанное с этой проблемой, или, может быть,...

10
Нахождение известного числа центров окружностей, которые максимизируют количество точек на фиксированном расстоянии

У меня есть набор двумерных данных, где я хочу найти центры с указанным количеством центров окружностей ( ), которые максимизируют общее количество точек на указанном расстоянии ( ).RNNNрRR например, у меня есть 10000 точек данных и я хочу найти центры из окружностей, которые захватывают как можно...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Остатки для логистической регрессии и расстояния Кука

Существуют ли какие-либо особые предположения относительно ошибок логистической регрессии, такие как постоянная дисперсия слагаемых ошибок и нормальность остатков? Также обычно, когда у вас есть точки, у которых расстояние Кука больше 4 / n, вы их удаляете? Если вы удалите их, как вы можете...

9
Как найти ожидаемое расстояние между двумя равномерно распределенными точками?

Если бы я должен был определить координаты и где( X 2 , Y 2 )( Х1, Y1)(X1,Y1)(X_{1},Y_{1})( Х2, Y2)(X2,Y2)(X_{2},Y_{2}) Икс1, X2~ Unif ( 0 , 30 )  и  Y1,Y2∼ Unif ( 0 , 40 ) .X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X_{1},X_{2} \sim \text{Unif}(0,30)\text{ and }Y_{1},Y_{2} \sim \text{Unif}(0,40). Как...