Я искал в интернете повсюду ... Мне еще предстоит найти действительно хороший обзор того, как интерпретировать 2D-графики анализа соответствия. Может ли кто-нибудь дать совет по интерпретации расстояний между точками?
Возможно, пример поможет, вот график, который можно найти на многих веб-сайтах, которые я видел, где обсуждается анализ соответствия. Красные треугольники представляют цвет глаз, а черные точки - цвет волос.
Глядя на график выше, не могли бы вы сделать несколько заявлений о том, что вы видите в этих данных. Интересует вопрос о различных измерениях и отношениях между треугольниками и точками?
Было бы полезно дать пояснения к точкам строк и стихам, а также использовать слово «профиль» с особым акцентом на примере.
interpretation
correspondence-analysis
biplot
Брэндон Бертельсен
источник
источник
Ответы:
Во-первых, существуют разные способы построения так называемых биплотов в случае анализа соответствия. Во всех случаях основная идея состоит в том, чтобы найти способ показать наилучшее двухмерное приближение «расстояний» между ячейками строк и столбцами. Другими словами, мы ищем иерархию (мы также говорим о «рукоположении») отношений между строками и столбцами таблицы сопряженности.
Очень кратко, CA разбивает статистику хи-квадрат, связанную с двусторонней таблицей, на ортогональные факторы, которые максимизируют разделение между оценками строк и столбцов (то есть частоты, вычисленные из таблицы профилей). Здесь вы видите, что есть некоторая связь с PCA, но мера дисперсии (или метрика), сохраняемая в CA, является , которая зависит только от профилей столбцов (поскольку она имеет тенденцию придавать большее значение модальностям, которые имеют большие предельные значения, мы также можем перевесить исходные данные, но это уже другая история).χ2
Вот более подробный ответ. Реализация, предложенная врTС= N N
corresp()
функции (inMASS
), следует из представления CA как SVD-разложения фиктивных кодированных матриц, представляющих строки и столбцы (такие, что , с общей выборкой). Это в свете канонического корреляционного анализа. Французская школа анализа данных, напротив, рассматривает CA как вариант PCA, где вы ищите направления, которые максимизируют «инерцию» в облаке данных. Это делается путем диагонализации матрицы инерции, вычисленной по центрированной и масштабированной (по предельным частотам) двусторонней таблице, и выражением профилей строк и столбцов в этой новой системе координат.NЕсли вы рассматриваете таблицу со столбцами и столбцами , каждая строка взвешивается на соответствующую предельную сумму, которая дает ряд условных частот, связанных с каждой строкой: . Краевой столбец называется средним профилем (для строк). Это дает нам вектор координат, также называемый профилем (по строкам). Для столбца имеем . В обоих случаях мы будем рассматривать профили строки (связанные с их весом ) как отдельные элементы в пространстве столбцов, а профили столбца (связанные с их весомj = 1 , … , J f j | i = n i j / n i ⋅ f i | j = n i j / n ⋅ j I f i ⋅ J f ⋅ j χ 2 i i ′я = 1 , … , я j = 1 , … , J еJ | я= nя ж/ ня ⋅ ея | J= nя ж/ н⋅ j я ея ⋅ J е⋅ j ) как отдельные лица в пространстве строк. Метрика, используемая для вычисления близости между любыми двумя людьми, - это расстояние . Например, между двумя строками и имеемχ2 я я'
Вы также можете увидеть связь со статистикой , отметив, что это просто расстояние между наблюдаемым и ожидаемым значениями, где ожидаемые значения (при , независимость двух переменных) вычисляются как для каждой ячейки . Если бы две переменные были независимы, все профили строк были бы одинаковыми и идентичными соответствующему профилю поля. Другими словами, когда есть независимость, ваша таблица непредвиденных обстоятельств полностью определяется ее полями.H 0 n i ⋅ × n ⋅ j / n ( i , j )χ2 ЧАС0 Nя ⋅× n⋅ j/н ( я , j )
Если вы понимаете PCA в профилях строк (рассматриваемых как отдельные лица), заменив евклидово расстояние наcos 2 i j χ 2χ2 расстояние, то вы получите свой CA. Первая главная ось - это линия, которая является ближайшей ко всем точкам, а соответствующее собственное значение - это инерция, объясняемая этим измерением. Вы можете сделать то же самое с профилями столбцов. Можно показать, что существует симметрия между этими двумя подходами, и более конкретно, что главные компоненты (ПК) для профилей столбцов связаны с теми же собственными значениями, чем ПК для профилей строк. На биплоте показаны координаты отдельных лиц в этой новой системе координат, хотя эти лица представлены в отдельном факториальном пространстве. При условии, что каждый индивид / модальность хорошо представлен в факториальном пространстве (вы можете посмотреть насоз2 модальности с 1-ой главной осью, которая является мерой корреляции / ассоциации), вы даже можете интерпретировать близость между элементами и вашей таблицы сопряженности (как это можно сделать, посмотрев на остатки вашего теста независимости, например ).я J χ2
chisq.test(tab)$expected-chisq.test(tab)$observed
Общая инерция вашего CA (= сумма собственных значений) является статистикой деленной на (который является Пирсона ). n ϕ 2χ2 N φ2
На самом деле, есть несколько пакетов , которые могут предоставить вам расширенный УЦ по сравнению с функцией , доступной в
MASS
упаковке: ade4 , FactoMineR , Anacor и ки .Последний является тот , который был использован для конкретной иллюстрации, и документ был опубликован в журнале статистического программного обеспечения , который объясняет большинство его functionnalities: Анализ соответствия в R с Двух- и трехмерная графика: В ча пакета .
Итак, ваш пример цвета глаз / волос может быть воспроизведен разными способами:
Во всех случаях то, что мы читаем в полученном биплоте, в основном (я ограничиваю свою интерпретацию 1-ой осью, которая объясняла большую часть инерции):
Существует много дополнительных ресурсов по анализу данных в лаборатории биоинформатики из Лиона во Франции. В основном это по-французски, но я думаю, что это не будет для вас проблемой. Следующие два раздаточных материала должны быть интересны в качестве первого начала:
Наконец, когда вы рассматриваете полное дизъюнктивное (фиктивное) кодирование переменных, вы получаете анализ множественных соответствий .К
источник
vcd
иvcdExtra
R, последняя включает приятную виньетку).cor
это квадрат корреляции с осью, иctr
это вклад (он должен быть разделен на 10, чтобы быть прочитанным как%). Так что «рыжие волосы» дают 55,1% инерции 2-й оси. В определенном смысле я обнаружил, что вывод FactoMineR более «интуитивно понятен» (CA(tab, graph=FALSE)$row$contrib
дает вам непосредственно%).