Вопросы с тегом «clustering»

11

Как найти группировки (траектории) среди продольных данных?

контекст Я хочу установить сцену, прежде чем немного расширить вопрос. У меня есть продольные данные, измерения проводятся на предметах примерно каждые 3 месяца, первичный результат - числовой (как в непрерывном режиме до 1 dp) в диапазоне от 5 до 14, при этом основная масса (всех точек данных)...

clustering panel-data

11

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Кластеризация как средство разделения данных для логистической регрессии

Я пытаюсь предсказать успех или неудачу студентов, основываясь на некоторых особенностях модели логистической регрессии. Чтобы улучшить производительность модели, я уже думал о том, чтобы разделить учащихся на разные группы на основе очевидных различий и создать отдельные модели для каждой группы....

clustering data-mining logistic

11

Методы инициализации кластеризации K-средних

Меня интересует текущее состояние дел с выбором исходных семян (кластерных центров) для K-средних. Поиск в Google приводит к двум популярным вариантам: случайный отбор начальных семян, и, с использованием техники отбора KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Преимущества тщательного...

clustering k-means

11

Как «разумно» собрать коллекцию отсортированных данных?

Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например:Nnnмmm Скажем, у меня в коллекции 12 предметов, и я знаю,...

clustering histogram binning

11

Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)

Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних....

clustering data-transformation k-means count-data compositional-data

11

Каковы расстояния между переменными, составляющими ковариационную матрицу?

У меня есть ковариационная матрица и я хочу разделить переменные на k кластеров, используя иерархическую кластеризацию (например, для сортировки ковариационной матрицы).n × nn×nn \times nКkk Существует ли типичная функция расстояния между переменными (то есть между столбцами / строками квадратной...

clustering covariance distance-functions distance

11

Расстояние между двумя гауссовыми смесями для оценки кластерных решений

Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения. Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются,...

clustering kullback-leibler gaussian-mixture

11

Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими...

r clustering validation intuition

11

Работает ли модульность сети Ньюмана для взвешенных графов со знаком?

Модульность графа определяется на его странице в Википедии . В другом посте кто-то объяснил, что модульность можно легко вычислить (и максимизировать) для взвешенных сетей, поскольку матрица смежности может содержать оцененные связи. Тем не менее, я хотел бы знать, будет ли это работать со...

clustering data-visualization networks partitioning modularity

11

Разъяснение максимизации ожидания

Я нашел очень полезное руководство по алгоритму EM . Пример и картинка из урока просто великолепны. Связанный вопрос о вычислении вероятностей, как работает максимизация ожидания? У меня есть еще один вопрос относительно того, как связать теорию, описанную в руководстве, с примером. На этапе E EM...

machine-learning clustering algorithms natural-language

11

Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

clustering dataset k-means binary-data

11

Выбор модели Mclust

Пакет R mclustиспользует BIC в качестве критерия выбора модели кластера. Насколько я понимаю, модель с самым низким BIC следует выбирать среди других моделей (если вы заботитесь только о BIC). Однако, когда значения BIC все отрицательные, по Mclustумолчанию используется модель с самым высоким...

r clustering gaussian-mixture bic model-based-clustering

10

Использование пакета статистики в R для кластеризации kmeans

Мне трудно понять один или два аспекта кластерного пакета. Я внимательно следую примеру Quick-R , но не понимаю один или два аспекта анализа. Я включил код, который я использую для этого конкретного примера. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925,...

r clustering

10

Обнаружение круговых структур в данных облака точек

Для какого-то алгоритма реконструкции объема, над которым я работаю, мне нужно обнаружить произвольное количество круговых паттернов в данных трехмерных точек (поступающих с устройства LIDAR). Образцы могут быть произвольно ориентированы в пространстве, и предполагается, что они лежат (хотя и не...

clustering image-processing

10

Как кластеризовать продольные переменные?

У меня есть куча переменных, которые содержат продольные данные от 0 до 7 дня. Я ищу подходящий подход к кластеризации, который может кластеризовать эти продольные переменные (не случаи) в разные группы. Я пытался проанализировать этот набор данных по времени, но результат было довольно сложно...

clustering

10

Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?

Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в...

hypothesis-testing clustering combinatorics association-measure association-rules

10

Что случилось с Fuzzy Logic?

Нечеткая логика казалась активной областью исследований в области машинного обучения и интеллектуального анализа данных, когда я учился в аспирантуре (в начале 2000-х). Системы нечеткого вывода, нечеткие c-средства, нечеткие версии различных нейронных сетей и архитектуры машин опорных векторов...

fuzzy fuzzy-c-means-clustering

10

Как получить доверительный интервал по изменению r-квадрата населения

Ради простого примера предположим, что есть две модели линейной регрессии Модель 1 имеет три предсказатели, x1a, x2b, иx2c Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и...

regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

10

PyMC для непараметрической кластеризации: процесс Дирихле для оценки параметров гауссовой смеси не кластеризуется

Настройка проблемы Одной из первых игрушечных проблем, к которой я хотел применить PyMC, является непараметрическая кластеризация: с учетом некоторых данных смоделируйте их как гауссову смесь и узнайте количество кластеров, а также среднее значение и ковариацию каждого кластера. Большая часть того,...

bayesian clustering python pymc nonparametric-bayes