Вопросы с тегом «pca»

15

Каковы различия между скрытым семантическим анализом (LSA), скрытой семантической индексацией (LSI) и разложением по сингулярным значениям (SVD)?

Эти термины часто встречаются вместе, но я хотел бы знать, как вы думаете, в чем различия, если таковые имеются.

pca text-mining svd

15

Создание единого индекса из нескольких основных компонентов или факторов, оставшихся от PCA / FA

Я использую Принципиальный компонентный анализ (PCA) для создания индекса, необходимого для моего исследования. Мой вопрос заключается в том, как мне создать единый индекс, используя оставшиеся основные компоненты, рассчитанные с помощью PCA. Например, я решил сохранить 3 основных компонента после...

pca factor-analysis rating composite scale-construction

15

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

В чем разница между обычным PCA и вероятностным PCA?

Я знаю, что обычный PCA не следует вероятностной модели для наблюдаемых данных. Так в чем же принципиальная разница между PCA и PPCA ? В PPCA модель скрытых переменных содержит, например, наблюдаемые переменные , скрытые (ненаблюдаемые переменные ) и матрицу , которая не должна быть...

pca

15

Регрессия в настройке

Я пытаюсь понять, следует ли использовать регрессию гребня , LASSO , регрессию главных компонентов (PCR) или частичные наименьшие квадраты (PLS) в ситуации, когда имеется большое количество переменных / признаков ( ) и меньшее количество выборок ( ) и моя цель - прогноз.ппpп < рN<пn nр >...

regression pca lasso ridge-regression partial-least-squares

14

Что означают стрелки в биплоте PCA?

Рассмотрим следующий биплот PCA: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) Есть куча красных стрелок, что они означают? Я знал, что первая стрелка, помеченная «Var1», должна указывать самое...

r pca linear-algebra biplot

14

В чем смысл собственных векторов взаимной информационной матрицы?

При взгляде на собственные векторы ковариационной матрицы мы получаем направления максимальной дисперсии (первый собственный вектор - это направление, в котором данные наиболее сильно варьируются и т. Д.); это называется анализ главных компонентов (PCA). Мне было интересно, что это будет означать,...

pca entropy mutual-information eigenvalues

14

Как я могу интерпретировать, что я получаю от PCA?

В рамках университетского задания я должен провести предварительную обработку данных на довольно большом, многомерном (> 10) наборе необработанных данных. Я не статистик в каком-либо смысле этого слова, поэтому я немного смущен тем, что происходит. Заранее извиняюсь за, возможно, смешной простой...

pca

14

Какие переменные объясняют, какие компоненты PCA, и наоборот?

Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...

r pca dimensionality-reduction regression-strategies

14

Почему сферичность, диагностированная с помощью теста Бартлетта, означает, что PCA не подходит?

Я понимаю, что тест Бартлетта связан с определением, являются ли ваши выборки из групп с равными отклонениями. Если образцы взяты из популяций с одинаковыми отклонениями, то мы не можем отклонить нулевую гипотезу теста, и поэтому анализ основных компонентов неуместен. Я не уверен, где проблема в...

variance pca heteroscedasticity

14

Как «Фундаментальная теорема факторного анализа» применяется к PCA или как определяются нагрузки PCA?

В настоящее время я изучаю набор слайдов для «факторного анализа» (насколько я могу судить по PCA). В ней выводится «фундаментальная теорема факторного анализа», которая утверждает, что корреляционная матрица данных, поступающих в анализ ( ), может быть восстановлена с использованием матрицы...

pca factor-analysis terminology definition

13

Уменьшение размерности SVD для временных рядов различной длины

Я использую Singular Value Decomposition в качестве техники уменьшения размерности. Заданные Nвекторы размерностиD идея состоит в том, чтобы представить элементы в преобразованном пространстве некоррелированных измерений, в котором большая часть информации данных содержится в собственных векторах...

time-series machine-learning pca data-transformation multivariate-analysis

13

Пакет GBM против Карет с использованием GBM

Я занимался настройкой модели caret, но затем перезапустил модель, используя gbmпакет. Насколько я понимаю, caretпакет использует gbmи вывод должен быть одинаковым. Тем не менее, только быстрый запуск теста data(iris)показывает несоответствие в модели около 5% с использованием RMSE и R ^ 2 в...

r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

13

PCA и оценки компонентов, основанные на сочетании непрерывных и двоичных переменных

Я хочу применить PCA к набору данных, который состоит из переменных смешанного типа (непрерывных и двоичных). Чтобы проиллюстрировать процедуру, я вставил минимальный воспроизводимый пример в R ниже. # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2)...

r pca

13

Почему Даниэль Уилкс (2011) говорит, что регресс основного компонента «будет предвзятым»?

В « Статистических методах в атмосферных науках» Дэниел Уилкс отмечает, что множественная линейная регрессия может привести к проблемам, если между предикторами существуют очень сильные корреляции (3-е издание, стр. 559-560): Патология, которая может возникнуть при множественной линейной регрессии,...

regression pca bias

13

Действительно ли компоненты PCA представляют собой процент дисперсии? Могут ли они составить более 100%?

«Машинное обучение для хакеров» О'Рейли говорит, что каждый основной компонент представляет собой процент дисперсии. Я процитировал соответствующую часть страницы ниже (глава 8, с.207). Говоря с другим экспертом, они согласились, что это процент. Однако 24 компонента составляют 133,2095%. Как это...

r pca

13

Выбор компонентов PCA, которые разделяют группы

Я часто использовал для диагностики своих многомерных данных с использованием PCA (опускаются данные с сотнями тысяч переменных и десятками или сотнями выборок). Данные часто приходят из экспериментов с несколькими категориальными независимыми переменными, определяющими некоторые группы, и мне...

pca linear-model r-squared discriminant-analysis

13

В чем разница между выбором объектов и уменьшением размерности?

Я знаю, что как выбор элементов, так и уменьшение размерности направлены на уменьшение количества элементов в исходном наборе элементов. Какая разница между ними, если мы делаем одно и то же в...

machine-learning pca feature-selection dimensionality-reduction

13

Пошаговое внедрение PCA в R с использованием учебника Линдси Смит

Я работаю в R с помощью превосходного учебника по PCA Линдси и Смита, и застреваю на последнем этапе. Сценарий R, приведенный ниже, выводит нас на этап (на стр.19), на котором исходные данные восстанавливаются из (в данном случае, единственного) основного компонента, который должен давать прямую...

r pca

13

Как интерпретировать загрузки PCA?

Читая о PCA, я натолкнулся на следующее объяснение: Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту. Мы находим первые два основных компонента, которые...

pca