Существует ли какое-либо необходимое количество отклонений, выявленных PCA, чтобы провести последующий анализ?

15

У меня есть набор данных с 11 переменными и PCA (ортогональный) был сделан для сокращения данных. Принимая решение о количестве компонентов для сохранения, для меня было очевидно, что по моим знаниям о предмете и графике осыпей (см. Ниже) двух основных компонентов (ПК) было достаточно, чтобы объяснить данные, а остальные компоненты были только менее информативными.

введите описание изображения здесь
График осыпания с параллельным анализом: наблюдаемые собственные значения (зеленый) и моделируемые собственные значения на основе 100 симуляций (красный). График Scree предлагает 3 ПК, тогда как параллельный тест предполагает только первые два ПК.

введите описание изображения здесь

Как вы видите, только 48% дисперсии могут быть зафиксированы первыми двумя ПК.

Наблюдения за графиком на первой плоскости, выполненные первыми двумя ПК, выявили три разных кластера с использованием иерархической агломерационной кластеризации (HAC) и K-средних. Эти 3 кластера оказались очень актуальными для рассматриваемой проблемы и были совместимы с другими выводами. Таким образом, за исключением того факта, что только 48% дисперсии было зафиксировано, все остальное было в порядке.

Один из моих двух рецензентов сказал: нельзя полагаться на эти результаты, так как можно объяснить только 48% отклонений, и это меньше, чем требуется.

Вопрос Требуется
ли какое-либо значение того, сколько отклонений должно быть зафиксировано PCA, чтобы быть действительным? Разве это не зависит от знания предметной области и используемой методологии? Кто-нибудь может судить о достоинствах всего анализа, основанного только на простом значении объясненной дисперсии?

Примечания

  • Данные представляют собой 11 переменных генов, измеренных с помощью очень чувствительной методологии в молекулярной биологии, называемой количественной полимеразной цепной реакцией в реальном времени (RT-qPCR).
  • Анализы были сделаны с использованием R.
  • Ответы аналитиков данных, основанные на их личном опыте работы с реальными проблемами в области анализа микрочипов, хемометрии, спектрометрического анализа или тому подобного, очень ценятся.
  • Пожалуйста, рассмотрите возможность поддержки вашего ответа с ссылками как можно больше.
докторская степень
источник
Распределение собственных значений очень важно для теории случайных матриц. Распределение Marcenko-Pastur иногда используется для подобных приложений.
Джон
Что означает зеленый и что показывают оранжевые / коричневатые линии? Есть только в оси.
usεr11852 говорит восстановить Monic
@ usεr11852, пожалуйста, смотрите обновленную подпись.
докторская степень

Ответы:

8

Что касается ваших конкретных вопросов:

Есть ли какое-либо требуемое значение того, сколько дисперсии должно быть зафиксировано PCA, чтобы быть действительным?

Нет, нет (насколько мне известно). Я твердо верю, что нет единой ценности, которую вы можете использовать; нет магического порога зафиксированного процентного отклонения. Статья Cangelosi и Goriely: Сохранение компонентов в анализе основных компонентов с применением к данным кДНК-микрочипов дает довольно хороший обзор полдюжины стандартных эмпирических правил для определения количества компонентов в исследовании. (График Scree, объясненная доля общей дисперсии, правило среднего собственного значения, диаграмма логического собственного значения и т. Д.). В качестве практического правила я бы не стал сильно полагаться ни на одно из них.

Разве это не зависит от знания предметной области и используемой методологии?

В идеале это должно быть зависимым, но вы должны быть осторожны, как вы это произносите и что имеете в виду.

Например: в акустике есть понятие «просто заметная разница» ( JND ). Предположим, вы анализируете образец акустики, и на конкретном ПК физические отклонения значительно ниже порога JND. Никто не может утверждать, что для приложения Acoustics вы должны были включить этот компьютер. Вы будете анализировать неслышимый шум. Может быть несколько причин для включения этого ПК, но эти причины должны быть представлены не наоборот. Похожи ли они на JND для анализа RT-КПЦР?

Точно так же, если компонент выглядит как полином Лежандра 9-го порядка, и у вас есть веские доказательства того, что ваша выборка состоит из одиночных гауссовых выпуклостей, у вас есть веские основания полагать, что вы снова моделируете несущественную вариацию. Что показывают эти ортогональные способы изменения? Что не так с 3-м ПК в вашем случае, например?

Тот факт, что вы говорите: « Эти 3 кластера оказались очень важными для рассматриваемой проблемы », на самом деле не является сильным аргументом. Вы можете просто использовать данные (это плохо ). Есть и другие методы, например. Изомапы и локально-линейное вложение , которые тоже довольно крутые, почему бы не использовать их? Почему вы выбрали именно PCA?

Согласованность ваших выводов с другими выводами важнее, особенно если эти выводы считаются обоснованными. Копай глубже в этом. Попробуйте проверить, соответствуют ли ваши результаты выводам PCA из других исследований.

Кто-нибудь может судить о достоинствах всего анализа, основанного только на простом значении объясненной дисперсии?

Вообще не следует этого делать. Не думайте, что ваш рецензент - ублюдок или что-то в этом роде; 48% - это действительно небольшой процент для удержания без предоставления разумных обоснований.

usεr11852 говорит восстановить Monic
источник
Спасибо за ваш ответ. В RT-qPCR нет ничего особенного, как в случае с JND. Фактически, RT-КПЦР - это только метод, с помощью которого мы измеряем сами генные переменные. Скорее всего, вы имели в виду ПК, которые являются новыми переменными, составленными из линейной комбинации всех 11. Учитывая другие описательные переменные, первые 2 ПК оказались связаны с клетками иммунного ответа, тогда как 3-и ПК нет. В противном случае нет ничего плохого в 3-м ПК.
докторская степень
Я посмотрю на методы драгирования данных и узнаю больше о них. Но знаете ли вы случайно, было ли это реализовано каким-либо R-пакетом (-ами)?
докторская степень
1
@doctorate: вся идея состоит в том, чтобы избежать выемки данных. Прошу прощения, но я не знаю никаких пакетов, которые явно тестируют его.
usεr11852 говорит восстановить Monic
1
+1, но ваше предложение о дноуглублении данных («вы можете просто утащить данные») не очень понятно, и, возможно, именно поэтому @doctorate был сбит с толку. Фактически, я нахожу весь этот абзац не очень ясным: какое отношение Isomap и LLE имеют к дноуглублению данных? дноуглубительные работы - это хорошо или плохо? Статья вики, на которую вы ссылаетесь, начинается с описания чего-то хорошего. Возможно, вы могли бы отредактировать, чтобы быть более явным в этом абзаце?
амеба говорит восстановить Монику