У меня есть 3 испытания каждого на 87 животных в каждом из 2 контекстов (некоторые отсутствующие данные; отсутствие отсутствующих данных = 64 животных). В контексте, у меня есть много конкретных мер в (время , чтобы войти, число раз возвращаюсь в убежище, и т.д.), поэтому я хочу , чтобы разработать 2 до 3 композитной оценки поведения , которые описывают поведение в этом контексте (назовут их C1
, C2
, C3
). Я хочу, чтобы это C1
означало одно и то же для всех 3 испытаний и 87 животных, чтобы я мог провести регрессию, чтобы изучить влияние возраста, пола, родословной и отдельных животных на поведение. Затем я хочу изучить, как C1
соотносятся оценки поведения в другом контексте, в пределах определенного возраста. (В возрасте 1 года активность в контексте 1 сильно предсказывает активность в контексте 2?)
Если бы это не были повторные измерения, PCA работал бы хорошо - выполнял PCA по нескольким показателям контекста, затем использовал PC1, PC2 и т. Д., Чтобы исследовать отношения (корреляции Спирмена) между PC1 в одном контексте и PC1 (или 2 или 3) в другом контексте. Проблема заключается в повторных мерах, которые впадают в псевдорепликацию. У меня был рецензент, который категорически сказал «нет», но я не могу найти четких ссылок на то, является ли это проблематичным при сокращении данных.
Мои рассуждения сводятся к следующему: повторные измерения не являются проблемой, потому что то, что я делаю в PCA, является чисто описательным по отношению к первоначальным измерениям. Если бы я объявил указом, что я использовал время, чтобы выйти на арену в качестве меры «смелости» в контексте 1, у меня был бы показатель смелости контекста 1, который был бы сопоставим для всех людей в любом возрасте, и никто не бросил бы глаз. Если я заявляю приказном , что я буду использовать времени на ввод времени до дальнего конца, то же самое. Поэтому, если я использую PCA исключительно для редуцирующих целей, почему это не может быть PC1 (это может быть введите finish общее время ...), которое, по крайней мере, основывается на моих многочисленных показателях, а не на том, что я предполагаю, что время для входа является в целом информативным и представительным признаком?
(Обратите внимание, что меня не интересует базовая структура мер ... мои вопросы касаются того, как мы интерпретируем поведение, зависящее от контекста. "Если бы я использовал контекст 1 и пришел к выводу, что Гарри активен по сравнению с другими животными, я вижу Гарри активен в контексте 2? Если он меняет то, что мы интерпретируем как активность в контексте 1, когда он становится старше, он также меняет свою деятельность в контексте 2?)
Я смотрел на PARAFAC, и я смотрел на SEM, и я не уверен, что какой-либо из этих подходов лучше или больше подходит для моего размера выборки. Кто-нибудь может взвесить? Благодарю.
Ответы:
Вы можете посмотреть на многофакторный анализ . Это может быть реализовано в R с помощью FactoMineR.
ОБНОВИТЬ:
Чтобы уточнить, Линн предлагал - хотя и давно - провести PCA на наборе данных с повторными измерениями. Если я правильно понимаю структуру ее набора данных, для данного «контекста» у нее была
x
матрица «особая мера» животного (время для входа, количество раз возвращающихся в приют и т. Д.). Каждое из 64 животных (без пропущенных наблюдений) наблюдалось три раза. Скажем , у нее была 10 «мер конкретных», так что она будет тогда иметь три 64 × 10 матриц на поведении животных (мы можем назвать матрицыX1
,X2
,X3
). Чтобы запустить PCA на трех матрицах одновременно, она должна была бы связать строки тремя матрицами (например,PCA(rbind(X1,X2,X3))
). Но это игнорирует тот факт, что первое и 64-е наблюдения относятся к одному и тому же животному. Чтобы обойти эту проблему, она может «связать столбцы» с тремя матрицами и провести их через многофакторный анализ. MFA - это полезный способ анализа нескольких наборов переменных, измеряемых одними и теми же людьми или объектами в разные моменты времени. Она сможет извлечь основные компоненты из MFA так же, как в PCA, но будет иметь одну координату для каждого животного. Объекты животных теперь будут помещены в многомерное пространство компромисса, ограниченное ее тремя наблюдениями.Она сможет выполнить анализ с использованием пакета FactoMineR в R. Пример кода будет выглядеть примерно так:
Кроме того, вместо того, чтобы извлекать первые три компонента из МФА и подвергать их множественной регрессии, она могла бы подумать о том, чтобы проецировать свои объясняющие переменные непосредственно на МФА как «дополнительные таблицы» (см.
?FactoMineR
). Другой подход заключается в том, чтобы вычислить евклидову матрицу расстояний координат объекта из MFA (напримерdist1=vegdist(mfa1$ind$coord, "euc")
) и поставить ее через RDAdist1
в зависимости от переменных, специфичных для животного (например,rda(dist1~age+sex+pedigree)
используя пакет веганский).источник
Обычно PCA используется при анализе повторяющихся измерений (например, он используется для анализа данных о продажах, ценах на акции и обменных курсах). Логика заключается в том, как вы формулируете (т. Е. Обоснование заключается в том, что PCA - это инструмент сокращения данных, а не логический инструмент). ).
Одна публикация довольно хорошего статистика: Bradlow, ET (2002). « Изучение наборов данных повторных измерений для ключевых функций с использованием анализа основных компонентов ». Журнал исследований по маркетингу 19: 167-179.
источник