Вопросы с тегом «clustering»

11
Как найти группировки (траектории) среди продольных данных?

контекст Я хочу установить сцену, прежде чем немного расширить вопрос. У меня есть продольные данные, измерения проводятся на предметах примерно каждые 3 месяца, первичный результат - числовой (как в непрерывном режиме до 1 dp) в диапазоне от 5 до 14, при этом основная масса (всех точек данных)...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Кластеризация как средство разделения данных для логистической регрессии

Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы....

11
Методы инициализации кластеризации K-средних

Меня интересует текущее состояние дел с выбором исходных семян (кластерных центров) для K-средних. Поиск в Google приводит к двум популярным вариантам: случайный отбор начальных семян, и, с использованием техники отбора KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Преимущества тщательного...

11
Как «разумно» собрать коллекцию отсортированных данных?

Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например:Nnnмmm Скажем, у меня в коллекции 12 предметов, и я знаю,...

11
Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)

Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних....

11
Каковы расстояния между переменными, составляющими ковариационную матрицу?

У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n × nn×nn \times nКkk Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной...

11
Расстояние между двумя гауссовыми смесями для оценки кластерных решений

Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения. Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются,...

11
Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими...

11
Работает ли модульность сети Ньюмана для взвешенных графов со знаком?

Модульность графа определяется на его странице в Википедии . В другом посте кто-то объяснил, что модульность можно легко вычислить (и максимизировать) для взвешенных сетей, поскольку матрица смежности может содержать оцененные связи. Тем не менее, я хотел бы знать, будет ли это работать со...

11
Разъяснение максимизации ожидания

Я нашел очень полезное руководство по алгоритму EM . Пример и картинка из урока просто великолепны. Связанный вопрос о вычислении вероятностей, как работает максимизация ожидания? У меня есть еще один вопрос относительно того, как связать теорию, описанную в руководстве, с примером. На этапе E EM...

11
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

11
Выбор модели Mclust

Пакет R mclustиспользует BIC в качестве критерия выбора модели кластера. Насколько я понимаю, модель с самым низким BIC следует выбирать среди других моделей (если вы заботитесь только о BIC). Однако, когда значения BIC все отрицательные, по Mclustумолчанию используется модель с самым высоким...

10
Использование пакета статистики в R для кластеризации kmeans

Мне трудно понять один или два аспекта кластерного пакета. Я внимательно следую примеру Quick-R , но не понимаю один или два аспекта анализа. Я включил код, который я использую для этого конкретного примера. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925,...

10
Обнаружение круговых структур в данных облака точек

Для какого-то алгоритма реконструкции объема, над которым я работаю, мне нужно обнаружить произвольное количество круговых паттернов в данных трехмерных точек (поступающих с устройства LIDAR). Образцы могут быть произвольно ориентированы в пространстве, и предполагается, что они лежат (хотя и не...

10
Как кластеризовать продольные переменные?

У меня есть куча переменных, которые содержат продольные данные от 0 до 7 дня. Я ищу подходящий подход к кластеризации, который может кластеризовать эти продольные переменные (не случаи) в разные группы. Я пытался проанализировать этот набор данных по времени, но результат было довольно сложно...

10
Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?

Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в...

10
Что случилось с Fuzzy Logic?

Нечеткая логика казалась активной областью исследований в области машинного обучения и интеллектуального анализа данных, когда я учился в аспирантуре (в начале 2000-х). Системы нечеткого вывода, нечеткие c-средства, нечеткие версии различных нейронных сетей и архитектуры машин опорных векторов...

10
Как получить доверительный интервал по изменению r-квадрата населения

Ради простого примера предположим, что есть две модели линейной регрессии Модель 1 имеет три предсказатели, x1a, x2b, иx2c Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и...

10
PyMC для непараметрической кластеризации: процесс Дирихле для оценки параметров гауссовой смеси не кластеризуется

Настройка проблемы Одной из первых игрушечных проблем, к которой я хотел применить PyMC, является непараметрическая кластеризация: с учетом некоторых данных смоделируйте их как гауссову смесь и узнайте количество кластеров, а также среднее значение и ковариацию каждого кластера. Большая часть того,...