Если у меня есть набор данных с наблюдениями и переменными (измерениями), и, как правило, мало ( ), и может варьироваться от маленького ( ) до, возможно, гораздо большего ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50
Я помню, как узнал, что должно быть намного больше, чем , чтобы выполнить анализ основных компонентов (PCA) или факторный анализ (FA), но, похоже, это не так в моих данных. Обратите внимание, что для моих целей я редко интересуюсь какими-либо основными компонентами после PC2.р
Вопросов:
- Каковы практические правила для минимального размера выборки, когда PCA можно использовать, а когда - нет?
- Можно ли использовать первые несколько ПК, даже если или ?n < p
- Есть ли ссылки на это?
Имеет ли значение, если ваша основная цель - использовать ПК1 и, возможно, ПК2:
- просто графически или
- как синтетическая переменная затем используется в регрессии?
pca
sample-size
factor-analysis
Патрик
источник
источник
Ответы:
Вы можете измерить, достаточно ли велик размер вашей выборки. Одним из симптомов слишком малого размера выборки является нестабильность.
Начальная загрузка или перекрестная проверка вашего PCA: эти методы нарушают ваш набор данных, удаляя / обменивая небольшую часть вашей выборки, а затем создавая «суррогатные модели» для каждого из нарушенных наборов данных. Если суррогатные модели достаточно похожи (= стабильны), у вас все хорошо. Вы, вероятно, должны будете принять во внимание, что решение PCA не является уникальным: ПК могут перевернуться (умножьте как счет, так и соответствующий основной компонент на ). Вы также можете использовать ротацию Procrustes, чтобы получить модели компьютеров, которые максимально похожи.- 1
источник
Что касается факторного анализа (а не анализа основных компонентов), то существует довольно много литературы, которая ставит под сомнение некоторые из старых эмпирических правил о количестве наблюдений. Традиционные рекомендации - по крайней мере, в рамках психометрии - состоят в том, чтобы иметь как минимум наблюдений на переменную (с x обычно от 5 до 20 ), поэтому в любом случае n ≫ p .Икс Икс 5 20 н ≫ р
Довольно подробный обзор со многими ссылками можно найти по адресу http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis.
Тем не менее, основным выводом из недавних имитационных исследований, вероятно, будет то, что качество результатов настолько разнится (в зависимости от сообществ, от числа факторов или отношения факторов к переменным и т. Д.), Что с учетом Отношение переменных к наблюдениям не является хорошим способом выбора необходимого количества наблюдений. Если условия благоприятны, вы можете избежать гораздо меньшего количества наблюдений, чем предполагали старые рекомендации, но в некоторых случаях даже самые консервативные рекомендации слишком оптимистичны. Например, Preacher & MacCallum (2002) получили хорошие результаты с чрезвычайно малыми размерами выборки и но Mundfrom, Shaw & Ke (2005) обнаружили некоторые случаи, когда размер выборки n > 100 pр > н n > 100 р было необходимо. Они также обнаружили, что если число основных факторов останется неизменным, большее количество переменных (и не меньшее, как подразумевается в руководящих принципах, основанных на отношении наблюдений к переменным), может привести к лучшим результатам при небольших выборках наблюдений.
Соответствующие ссылки:
источник
Эквивалентность можно увидеть следующим образом: каждый шаг PCA является проблемой оптимизации. Мы пытаемся найти, в каком направлении выражать наибольшее расхождение. то есть:
в соответствии с ограничениями:
Взятие n = p более или менее эквивалентно угадыванию значения только с двумя данными ... это ненадежно.
источник
Я надеюсь, что это может быть полезно:
Ссылка:
из «R in Action» Роберта И. Кабакова, очень информативная книга с полезными советами, охватывающая практически все статистические тесты.
источник