Вопросы с тегом «similarities»

Меры близости между распределениями, кластеризацией, наборами данных или другими объектами.

46
Процент перекрывающихся областей двух нормальных распределений

Мне было интересно, учитывая два нормальных распределения с и \ sigma_2, \ \ mu_2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Как я могу рассчитать процент перекрывающихся регионов двух распределений? Я полагаю, что у этой проблемы есть определенное имя, знаете ли вы какое-либо...

34
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?

В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние...

28
Сравнение иерархических кластерных дендрограмм, полученных разными расстояниями и методами

[Первоначальный заголовок «Измерение подобия для деревьев иерархической кластеризации» был позже изменен @ttnphns, чтобы лучше отражать тему] Я выполняю ряд иерархических кластерных анализов на базе данных записей пациентов (например, аналогично...

27
Преобразование матрицы подобия в (евклидову) матрицу расстояний

В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом: Посылайте все учебные примеры по каждому дереву в лесу Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1 Нормализовать матрицу количеством деревьев Он...

20
Есть ли R-функция, которая будет вычислять матрицу косинусных различий? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Я хотел бы сделать тепловую карту с кластеризацией строк на основе косинусных расстояний. Я использую...

20
Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?

Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:ппp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a =...

17
Меры сходства между кривыми?

Я хотел бы вычислить меру сходства между двумя упорядоченными наборами точек - теми, что под Пользователем, и теми, что под Учителем : Точки - это кривые в трехмерном пространстве, но я думал, что проблема упрощается, если я нанесу их в двух измерениях, как на картинке. Если точки перекрываются,...

13
Какова цель нормализации строк

Я понимаю причину нормализации столбцов, поскольку она приводит к одинаковому взвешиванию объектов, даже если они не измеряются в одном и том же масштабе - однако часто в литературе ближайшего соседа столбцы и строки нормализуются. Что такое нормализация строк для / почему нормализация строк? В...

13
Евклидово расстояние и сходство

Я просто работаю с книгой Коллективный разум (Тоби Сегаран) и натолкнулся на евклидову оценку расстояния. В книге автор показывает, как рассчитать сходство между двумя массивами рекомендаций (например, .человек × фильм ↦ оценка )person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto...

12
Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал...

12
Количественная оценка сходства между двумя наборами данных

Резюме : Попытка найти лучший метод суммирует сходство между двумя выровненными наборами данных, используя одно значение. Детали : Мой вопрос лучше всего объяснить диаграммой. На графиках ниже показаны два разных набора данных, каждый со значениями, помеченными nfи nr. Точки вдоль оси x...

11
Техника машинного обучения для изучения струнных моделей

У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...). Например: "ABC" -> type1 "ACC"...

11
Теорема Мерсера работает наоборот?

У коллеги есть функция и для наших целей это черный ящик. Функция измеряет сходство s ( a , b ) двух объектов.ssss(a,b)s(a,b)s(a,b) Мы точно знаем, что обладает следующими свойствами:sss Значения сходства представляют собой действительные числа от 0 до 1 включительно. Только объекты, которые...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Как найти сходство между временными рядами?

В следующем примере у меня есть кадр данных, который состоит из временного ряда измерений температуры воды, зарегистрированных на 5 глубинах в океане, где каждое значение Tempсоответствует дате в DateTimeи глубине в Depth. set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth...

9
Расчет Jaccard или другого коэффициента ассоциации для двоичных данных с использованием умножения матриц

Я хочу знать, есть ли какой-нибудь возможный способ для вычисления коэффициента Жакара с использованием умножения матриц. Я использовал этот код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x)))...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны...