Интерпретация графиков анализа 2D соответствия

19

Я искал в интернете повсюду ... Мне еще предстоит найти действительно хороший обзор того, как интерпретировать 2D-графики анализа соответствия. Может ли кто-нибудь дать совет по интерпретации расстояний между точками?

Возможно, пример поможет, вот график, который можно найти на многих веб-сайтах, которые я видел, где обсуждается анализ соответствия. Красные треугольники представляют цвет глаз, а черные точки - цвет волос.

альтернативный текст

Глядя на график выше, не могли бы вы сделать несколько заявлений о том, что вы видите в этих данных. Интересует вопрос о различных измерениях и отношениях между треугольниками и точками?

Было бы полезно дать пояснения к точкам строк и стихам, а также использовать слово «профиль» с особым акцентом на примере.

Брэндон Бертельсен
источник
1
В дополнение к превосходному описанию @ chl, приведенному ниже, рассмотрим также этот, рассматривающий простые CA и PCA как просто формы «анализа биплота».
ttnphns

Ответы:

24

Во-первых, существуют разные способы построения так называемых биплотов в случае анализа соответствия. Во всех случаях основная идея состоит в том, чтобы найти способ показать наилучшее двухмерное приближение «расстояний» между ячейками строк и столбцами. Другими словами, мы ищем иерархию (мы также говорим о «рукоположении») отношений между строками и столбцами таблицы сопряженности.

Очень кратко, CA разбивает статистику хи-квадрат, связанную с двусторонней таблицей, на ортогональные факторы, которые максимизируют разделение между оценками строк и столбцов (то есть частоты, вычисленные из таблицы профилей). Здесь вы видите, что есть некоторая связь с PCA, но мера дисперсии (или метрика), сохраняемая в CA, является , которая зависит только от профилей столбцов (поскольку она имеет тенденцию придавать большее значение модальностям, которые имеют большие предельные значения, мы также можем перевесить исходные данные, но это уже другая история).χ2

Вот более подробный ответ. Реализация, предложенная в corresp()функции (in MASS), следует из представления CA как SVD-разложения фиктивных кодированных матриц, представляющих строки и столбцы (такие, что , с общей выборкой). Это в свете канонического корреляционного анализа. Французская школа анализа данных, напротив, рассматривает CA как вариант PCA, где вы ищите направления, которые максимизируют «инерцию» в облаке данных. Это делается путем диагонализации матрицы инерции, вычисленной по центрированной и масштабированной (по предельным частотам) двусторонней таблице, и выражением профилей строк и столбцов в этой новой системе координат.NRtC=NN

Если вы рассматриваете таблицу со столбцами и столбцами , каждая строка взвешивается на соответствующую предельную сумму, которая дает ряд условных частот, связанных с каждой строкой: . Краевой столбец называется средним профилем (для строк). Это дает нам вектор координат, также называемый профилем (по строкам). Для столбца имеем . В обоих случаях мы будем рассматривать профили строки (связанные с их весом ) как отдельные элементы в пространстве столбцов, а профили столбца (связанные с их весомj = 1 , , J f j | i = n i j / n i f i | j = n i j / n j I f i J f j χ 2 i i i=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfj ) как отдельные лица в пространстве строк. Метрика, используемая для вычисления близости между любыми двумя людьми, - это расстояние . Например, между двумя строками и имеемχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

Вы также можете увидеть связь со статистикой , отметив, что это просто расстояние между наблюдаемым и ожидаемым значениями, где ожидаемые значения (при , независимость двух переменных) вычисляются как для каждой ячейки . Если бы две переменные были независимы, все профили строк были бы одинаковыми и идентичными соответствующему профилю поля. Другими словами, когда есть независимость, ваша таблица непредвиденных обстоятельств полностью определяется ее полями.H 0 n i × n j / n ( i , j )χ2ЧАС0Nя×NJ/N(я,J)

Если вы понимаете PCA в профилях строк (рассматриваемых как отдельные лица), заменив евклидово расстояние наcos 2 i j χ 2χ2расстояние, то вы получите свой CA. Первая главная ось - это линия, которая является ближайшей ко всем точкам, а соответствующее собственное значение - это инерция, объясняемая этим измерением. Вы можете сделать то же самое с профилями столбцов. Можно показать, что существует симметрия между этими двумя подходами, и более конкретно, что главные компоненты (ПК) для профилей столбцов связаны с теми же собственными значениями, чем ПК для профилей строк. На биплоте показаны координаты отдельных лиц в этой новой системе координат, хотя эти лица представлены в отдельном факториальном пространстве. При условии, что каждый индивид / модальность хорошо представлен в факториальном пространстве (вы можете посмотреть насоз2модальности с 1-ой главной осью, которая является мерой корреляции / ассоциации), вы даже можете интерпретировать близость между элементами и вашей таблицы сопряженности (как это можно сделать, посмотрев на остатки вашего теста независимости, например ).яJχ2chisq.test(tab)$expected-chisq.test(tab)$observed

Общая инерция вашего CA (= сумма собственных значений) является статистикой деленной на (который является Пирсона ). n ϕ 2χ2Nφ2

На самом деле, есть несколько пакетов , которые могут предоставить вам расширенный УЦ по сравнению с функцией , доступной в MASSупаковке: ade4 , FactoMineR , Anacor и ки .

Последний является тот , который был использован для конкретной иллюстрации, и документ был опубликован в журнале статистического программного обеспечения , который объясняет большинство его functionnalities: Анализ соответствия в R с Двух- и трехмерная графика: В ча пакета .

Итак, ваш пример цвета глаз / волос может быть воспроизведен разными способами:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

Во всех случаях то, что мы читаем в полученном биплоте, в основном (я ограничиваю свою интерпретацию 1-ой осью, которая объясняла большую часть инерции):

  • первая ось подчеркивает четкую оппозицию между светлым и темным цветом волос, а также между голубыми и карими глазами;
  • Люди со светлыми волосами, как правило, имеют голубые глаза, а люди с черными волосами, как правило, имеют карие глаза.

Существует много дополнительных ресурсов по анализу данных в лаборатории биоинформатики из Лиона во Франции. В основном это по-французски, но я думаю, что это не будет для вас проблемой. Следующие два раздаточных материала должны быть интересны в качестве первого начала:

Наконец, когда вы рассматриваете полное дизъюнктивное (фиктивное) кодирование переменных, вы получаете анализ множественных соответствий .К

хл
источник
1
@Brandon 1-я ось является осью «доминирования» (светлая -> темная) для обеих модальностей, но мы также можем видеть, что 1-я ось противопоставляет синие и зеленые глаза карие и карие глаза (их координаты имеют противоположные знаки), и комбинация рыжие волосы / зеленые глаза - что довольно редко - вносит основной вклад в ось 2-го фактора. Поскольку эта ось объясняет только 9,5% общей инерции, довольно сложно сделать твердые выводы (особенно в отношении генетических гипотез).
ЧЛ
1
@Brandon Еще две ссылки (на этот раз на английском языке): курс PBIL ( j.mp/cHZT7X ) и ресурсы Майкла Фрэндли ( пакеты j.mp/cYHyVn + vcdи vcdExtraR, последняя включает приятную виньетку).
ЧЛ
2
@ Брендон Да, одна модальность = одна категория для вашей переменной. Для вашего второго вопроса, corэто квадрат корреляции с осью, и ctrэто вклад (он должен быть разделен на 10, чтобы быть прочитанным как%). Так что «рыжие волосы» дают 55,1% инерции 2-й оси. В определенном смысле я обнаружил, что вывод FactoMineR более «интуитивно понятен» ( CA(tab, graph=FALSE)$row$contribдает вам непосредственно%).
ЧЛ
1
@chl: вау, для тех, кто ничего не знает о CCA или «французском пути», это было отличное чтение! Большое спасибо. Я также нашел это с некоторыми поисками в Google, которые могут представлять интерес: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars
1
@ars (+1) Спасибо за ссылку (не знал об этой монографии, выглядит интересно). Моими лучшими рекомендациями для недавних разработок на самом деле являются ВСЕ документы от Jan de Leeuw и эти две книги: « Анализ множественной корреспонденции и связанные методы из Greenacre» и « Геометрический анализ данных: от анализа корреспонденции до анализа структурированных данных из Le Roux & Rouanet» (французский способ) ,
chl