Вопросы с тегом «distance»

Мера расстояния между распределениями или переменными, например евклидово расстояние между точками в n-пространстве.

127
Объяснение расстояния Махаланобиса снизу вверх?

Я изучаю распознавание образов и статистику, и почти в каждой книге, которую я открываю на эту тему, я сталкиваюсь с концепцией расстояния Махаланобиса . Книги дают интуитивно понятные объяснения, но все еще недостаточно хороши для того, чтобы я действительно мог понять, что происходит. Если бы...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

48
Интуиция о расхождении Кульбака-Лейблера (КЛ)

Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным,...

33
Выбор правильного метода связи для иерархической кластеризации

Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m:...

27
Является ли сходство косинусов идентичным l2-нормированному евклидову расстоянию?

Идентичный смысл, что он будет производить идентичные результаты для ранжирования сходства между вектором ¯u и набором векторами V . У меня есть модель векторного пространства, в которой в качестве параметров используется мера расстояния (евклидово расстояние, косинусное сходство) и метод...

27
Преобразование матрицы подобия в (евклидову) матрицу расстояний

В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом: Посылайте все учебные примеры по каждому дереву в лесу Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1 Нормализовать матрицу количеством деревьев Он...

26
Можно ли распространить критерий Мантеля на асимметричные матрицы?

Тест Мантеля обычно применяется к симметричным матрицам расстояний / разностей. Насколько я понимаю, предположение теста состоит в том, что мера, используемая для определения различий, должна быть, по крайней мере, полуметрической (соответствовать стандартным требованиям метрики, но не неравенству...

22
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам

Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от...

22
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)

Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1...

21
Распределение разницы между двумя нормальными распределениями

У меня есть две функции плотности вероятности нормальных распределений: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } и...

21
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?

Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это,...

20
Связь между дисперсией и попарными расстояниями в переменной

Пожалуйста, докажите, что если у нас есть две переменные (одинаковый размер выборки) и а дисперсия в больше, чем в , то сумма квадратов разностей (то есть квадратов евклидовых расстояний) между точками данных в также больше, чем что в...

18
Попарное расстояние Махаланобис

Мне нужно рассчитать выборочное расстояние Махаланобиса в R между каждой парой наблюдений в матрице ковариат n×pn×pn \times p . Мне нужно решение, которое является эффективным, то есть только n(n−1)/2n(n−1)/2n(n-1)/2 Е. Рассчитываются расстояний, и желательно, чтобы они были реализованы в C / RCpp...

15
Максимальное среднее расхождение (распределение по расстоянию)

У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными. исходные данные, хз целевые данные, Xt Матрица...

14
Как измерить статистическое «расстояние» между двумя частотными распределениями?

Я предпринимаю проект по анализу данных, который включает изучение времени использования веб-сайта в течение года. То, что я хотел бы сделать, это сравнить, насколько «согласованными» являются шаблоны использования, скажем, насколько они близки к шаблону, который предполагает использование его в...

14
Есть ли интуитивная характеристика дистанционной корреляции?

Я смотрел на страницу Википедии для корреляции расстояний, где она, кажется, характеризуется тем, как ее можно рассчитать. В то время как я мог делать вычисления, я изо всех сил пытаюсь получить, какие меры корреляции расстояния и почему вычисления выглядят, как они делают. Есть ли (или многие)...

14
Каково максимальное значение дивергенции Кульбака-Лейблера (КЛ)

Я собираюсь использовать дивергенцию KL в своем коде Python, и я получил это руководство . На этом уроке реализовать дивергенцию KL довольно просто. kl = (model * np.log(model/actual)).sum() Как я понимаю, распределение вероятностей modelи actualдолжно быть <= 1. Мой вопрос: какова максимальная...