У меня есть набор данных с 11 переменными и PCA (ортогональный) был сделан для сокращения данных. Принимая решение о количестве компонентов для сохранения, для меня было очевидно, что по моим знаниям о предмете и графике осыпей (см. Ниже) двух основных компонентов (ПК) было достаточно, чтобы объяснить данные, а остальные компоненты были только менее информативными.
График осыпания с параллельным анализом: наблюдаемые собственные значения (зеленый) и моделируемые собственные значения на основе 100 симуляций (красный). График Scree предлагает 3 ПК, тогда как параллельный тест предполагает только первые два ПК.
Как вы видите, только 48% дисперсии могут быть зафиксированы первыми двумя ПК.
Наблюдения за графиком на первой плоскости, выполненные первыми двумя ПК, выявили три разных кластера с использованием иерархической агломерационной кластеризации (HAC) и K-средних. Эти 3 кластера оказались очень актуальными для рассматриваемой проблемы и были совместимы с другими выводами. Таким образом, за исключением того факта, что только 48% дисперсии было зафиксировано, все остальное было в порядке.
Один из моих двух рецензентов сказал: нельзя полагаться на эти результаты, так как можно объяснить только 48% отклонений, и это меньше, чем требуется.
Вопрос Требуется
ли какое-либо значение того, сколько отклонений должно быть зафиксировано PCA, чтобы быть действительным? Разве это не зависит от знания предметной области и используемой методологии? Кто-нибудь может судить о достоинствах всего анализа, основанного только на простом значении объясненной дисперсии?
Примечания
- Данные представляют собой 11 переменных генов, измеренных с помощью очень чувствительной методологии в молекулярной биологии, называемой количественной полимеразной цепной реакцией в реальном времени (RT-qPCR).
- Анализы были сделаны с использованием R.
- Ответы аналитиков данных, основанные на их личном опыте работы с реальными проблемами в области анализа микрочипов, хемометрии, спектрометрического анализа или тому подобного, очень ценятся.
- Пожалуйста, рассмотрите возможность поддержки вашего ответа с ссылками как можно больше.
Ответы:
Что касается ваших конкретных вопросов:
Нет, нет (насколько мне известно). Я твердо верю, что нет единой ценности, которую вы можете использовать; нет магического порога зафиксированного процентного отклонения. Статья Cangelosi и Goriely: Сохранение компонентов в анализе основных компонентов с применением к данным кДНК-микрочипов дает довольно хороший обзор полдюжины стандартных эмпирических правил для определения количества компонентов в исследовании. (График Scree, объясненная доля общей дисперсии, правило среднего собственного значения, диаграмма логического собственного значения и т. Д.). В качестве практического правила я бы не стал сильно полагаться ни на одно из них.
В идеале это должно быть зависимым, но вы должны быть осторожны, как вы это произносите и что имеете в виду.
Например: в акустике есть понятие «просто заметная разница» ( JND ). Предположим, вы анализируете образец акустики, и на конкретном ПК физические отклонения значительно ниже порога JND. Никто не может утверждать, что для приложения Acoustics вы должны были включить этот компьютер. Вы будете анализировать неслышимый шум. Может быть несколько причин для включения этого ПК, но эти причины должны быть представлены не наоборот. Похожи ли они на JND для анализа RT-КПЦР?
Точно так же, если компонент выглядит как полином Лежандра 9-го порядка, и у вас есть веские доказательства того, что ваша выборка состоит из одиночных гауссовых выпуклостей, у вас есть веские основания полагать, что вы снова моделируете несущественную вариацию. Что показывают эти ортогональные способы изменения? Что не так с 3-м ПК в вашем случае, например?
Тот факт, что вы говорите: « Эти 3 кластера оказались очень важными для рассматриваемой проблемы », на самом деле не является сильным аргументом. Вы можете просто использовать данные (это плохо ). Есть и другие методы, например. Изомапы и локально-линейное вложение , которые тоже довольно крутые, почему бы не использовать их? Почему вы выбрали именно PCA?
Согласованность ваших выводов с другими выводами важнее, особенно если эти выводы считаются обоснованными. Копай глубже в этом. Попробуйте проверить, соответствуют ли ваши результаты выводам PCA из других исследований.
Вообще не следует этого делать. Не думайте, что ваш рецензент - ублюдок или что-то в этом роде; 48% - это действительно небольшой процент для удержания без предоставления разумных обоснований.
источник