Эти термины часто встречаются вместе, но я хотел бы знать, как вы думаете, в чем различия, если таковые имеются.
Эти термины часто встречаются вместе, но я хотел бы знать, как вы думаете, в чем различия, если таковые имеются.
Я использую Принципиальный компонентный анализ (PCA) для создания индекса, необходимого для моего исследования. Мой вопрос заключается в том, как мне создать единый индекс, используя оставшиеся основные компоненты, рассчитанные с помощью PCA. Например, я решил сохранить 3 основных компонента после...
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...
Я знаю, что обычный PCA не следует вероятностной модели для наблюдаемых данных. Так в чем же принципиальная разница между PCA и PPCA ? В PPCA модель скрытых переменных содержит, например, наблюдаемые переменные , скрытые (ненаблюдаемые переменные ) и матрицу , которая не должна быть...
Я пытаюсь понять, следует ли использовать регрессию гребня , LASSO , регрессию главных компонентов (PCR) или частичные наименьшие квадраты (PLS) в ситуации, когда имеется большое количество переменных / признаков ( ) и меньшее количество выборок ( ) и моя цель - прогноз.ппpп < рN<пn nр >...
Рассмотрим следующий биплот PCA: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) Есть куча красных стрелок, что они означают? Я знал, что первая стрелка, помеченная «Var1», должна указывать самое...
При взгляде на собственные векторы ковариационной матрицы мы получаем направления максимальной дисперсии (первый собственный вектор - это направление, в котором данные наиболее сильно варьируются и т. Д.); это называется анализ главных компонентов (PCA). Мне было интересно, что это будет означать,...
В рамках университетского задания я должен провести предварительную обработку данных на довольно большом, многомерном (> 10) наборе необработанных данных. Я не статистик в каком-либо смысле этого слова, поэтому я немного смущен тем, что происходит. Заранее извиняюсь за, возможно, смешной простой...
Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...
Я понимаю, что тест Бартлетта связан с определением, являются ли ваши выборки из групп с равными отклонениями. Если образцы взяты из популяций с одинаковыми отклонениями, то мы не можем отклонить нулевую гипотезу теста, и поэтому анализ основных компонентов неуместен. Я не уверен, где проблема в...
В настоящее время я изучаю набор слайдов для «факторного анализа» (насколько я могу судить по PCA). В ней выводится «фундаментальная теорема факторного анализа», которая утверждает, что корреляционная матрица данных, поступающих в анализ ( ), может быть восстановлена с использованием матрицы...
Я использую Singular Value Decomposition в качестве техники уменьшения размерности. Заданные Nвекторы размерностиD идея состоит в том, чтобы представить элементы в преобразованном пространстве некоррелированных измерений, в котором большая часть информации данных содержится в собственных векторах...
Я занимался настройкой модели caret, но затем перезапустил модель, используя gbmпакет. Насколько я понимаю, caretпакет использует gbmи вывод должен быть одинаковым. Тем не менее, только быстрый запуск теста data(iris)показывает несоответствие в модели около 5% с использованием RMSE и R ^ 2 в...
Я хочу применить PCA к набору данных, который состоит из переменных смешанного типа (непрерывных и двоичных). Чтобы проиллюстрировать процедуру, я вставил минимальный воспроизводимый пример в R ниже. # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2)...
В « Статистических методах в атмосферных науках» Дэниел Уилкс отмечает, что множественная линейная регрессия может привести к проблемам, если между предикторами существуют очень сильные корреляции (3-е издание, стр. 559-560): Патология, которая может возникнуть при множественной линейной регрессии,...
«Машинное обучение для хакеров» О'Рейли говорит, что каждый основной компонент представляет собой процент дисперсии. Я процитировал соответствующую часть страницы ниже (глава 8, с.207). Говоря с другим экспертом, они согласились, что это процент. Однако 24 компонента составляют 133,2095%. Как это...
Я часто использовал для диагностики своих многомерных данных с использованием PCA (опускаются данные с сотнями тысяч переменных и десятками или сотнями выборок). Данные часто приходят из экспериментов с несколькими категориальными независимыми переменными, определяющими некоторые группы, и мне...
Я знаю, что как выбор элементов, так и уменьшение размерности направлены на уменьшение количества элементов в исходном наборе элементов. Какая разница между ними, если мы делаем одно и то же в...
Я работаю в R с помощью превосходного учебника по PCA Линдси и Смита, и застреваю на последнем этапе. Сценарий R, приведенный ниже, выводит нас на этап (на стр.19), на котором исходные данные восстанавливаются из (в данном случае, единственного) основного компонента, который должен давать прямую...
Читая о PCA, я натолкнулся на следующее объяснение: Предположим, у нас есть набор данных, где каждая точка данных представляет баллы одного студента по тесту по математике, тесту по физике, тесту на понимание прочитанного и словарному тесту. Мы находим первые два основных компонента, которые...