Вопросы с тегом «clustering»

10
Кластеризация распределений

У меня есть несколько распределений (10 распределений на рисунке ниже). Фактически это гистограммы: на оси x имеется 70 значений, которые представляют собой размеры некоторых частиц в растворе, и для каждого значения x соответствующее значение y представляет собой долю частиц, размер которых...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Обнаружение кластеров «похожих» исходников

Предположим, у меня 400 студентов (это в большом университете), которые должны заниматься компьютерными проектами, и что они должны работать в одиночку (без группы студентов). Примером проекта может быть «реализация алгоритма быстрого преобразования Фурье в Фортране» (я знаю, это не звучит...

10
О копенетической корреляции для кластеризации дендрограмм

Рассмотрим контекст кластеризации дендрограмм. Давайте назовем оригинальные различия расстояниями между людьми. После построения дендрограммы мы определяем копенетическое различие между двумя индивидами как расстояние между кластерами, к которым эти индивиды принадлежат. Некоторые люди считают, что...

10
Оценка кластеров цепей Маркова первого порядка

Я сгруппировал свой набор данных из нескольких тысяч цепей Маркова первого порядка примерно в 10 кластеров. Есть ли какой-нибудь рекомендуемый способ, как я могу оценить эти кластеры и выяснить, какие элементы в кластерах совместно используются и как они отличаются от других кластеров? Таким...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Означает ли низкая ширина силуэта, что данные имеют небольшую базовую структуру?

Я новичок в анализе последовательности, и мне было интересно, как вы реагируете, если средняя ширина силуэта (ASW) из кластерного анализа матриц различий на основе оптимального соответствия является низкой (около 25). Представляется ли целесообразным заключить, что существует небольшая базовая...

10
Как автоматически кластеризовать U-Matrix?

После тренировки самоорганизующейся карты можно рассчитать U-матрицу . Существуют некоторые инструменты для ручной визуализации и идентификации кластеров, но мне интересно, есть ли какой-нибудь алгоритм для автоматического выполнения этого процесса (то есть, когда человек не смотрит на рисунок для...

10
Нахождение известного числа центров окружностей, которые максимизируют количество точек на фиксированном расстоянии

У меня есть набор двумерных данных, где я хочу найти центры с указанным количеством центров окружностей ( ), которые максимизируют общее количество точек на указанном расстоянии ( ).RNNNрRR например, у меня есть 10000 точек данных и я хочу найти центры из окружностей, которые захватывают как можно...

10
Как получить доверительный интервал по изменению r-квадрата населения

Ради простого примера предположим, что есть две модели линейной регрессии Модель 1 имеет три предсказатели, x1a, x2b, иx2c Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и...

10
PyMC для непараметрической кластеризации: процесс Дирихле для оценки параметров гауссовой смеси не кластеризуется

Настройка проблемы Одной из первых игрушечных проблем, к которой я хотел применить PyMC, является непараметрическая кластеризация: с учетом некоторых данных смоделируйте их как гауссову смесь и узнайте количество кластеров, а также среднее значение и ковариацию каждого кластера. Большая часть того,...

10
Как я должен интерпретировать статистику GAP?

Я использовал статистику GAP для оценки k кластеров в R. Однако я не уверен, правильно ли я ее интерпретирую. Из приведенного выше графика я предполагаю, что я должен использовать 3 кластера. Из второго сюжета я должен выбрать 6 кластеров. Это правильная интерпретация статистики GAP? Буду...

10
Подход и пример кластеризации графов в «R»

Я ищу, чтобы сгруппировать / объединить узлы в графе, используя кластеризацию графа в 'r'. Вот потрясающе игрушечный вариант моей проблемы. Есть два "кластера" Существует «мост», соединяющий кластеры Вот сеть-кандидат: Когда я смотрю на расстояние соединения, "hopcount", если хотите, то я могу...

10
Разница между PCA и спектральной кластеризацией для небольшого выборочного набора булевых функций

У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов. Я попробовал следующие два подхода: (a) Запустите PCA...

10
Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как...

10
Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?

Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Кластеризация с асимметричными измерениями расстояния

Как кластеризовать объект с асимметричной мерой расстояния? Например, предположим, что вы кластеризуете набор данных с днями недели как функцией - расстояние от понедельника до пятницы не совпадает с расстоянием от пятницы до понедельника. Как вы включаете это в меру расстояния алгоритма...

9
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?

Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы...