У меня есть набор данных с дискретными (порядковыми, меристическими и номинальными) переменными, описывающими морфологические признаки крыла нескольких близкородственных видов насекомых. То, что я хочу сделать, - это провести какой-то анализ, который бы дал мне визуальное представление о сходстве разных видов на основе морфологических характеристик. Первой вещью, которая пришла мне в голову, был PCA (это тип визуализации, который я собираюсь создать), но после изучения этого (особенно других вопросов, таких как: Можно ли применять анализ основных компонентов к наборам данных, содержащим смесь непрерывных а категориальные переменные?), кажется, что PCA может быть неподходящим для дискретных данных (PCA используется в этих типах исследований в литературе, но всегда с непрерывными данными). Игнорируя статистический фон того, почему эти данные неуместны, PCA дает мне относительно прекрасные результаты в отношении моего биологического вопроса (представляющие интерес гибридные группы попадают прямо в середину их отцовских групп).
Я также пробовал многократный анализ корреспонденции, чтобы успокоить статистику (по крайней мере, насколько мне известно), но я не могу получить график, аналогичный тому, который я получил бы с PCA, где мои наблюдения (биологические индивидуумы) разделены, скажем, цветом, чтобы показать разные группировки (разные виды, биологически). Похоже, что этот анализ направлен на описание того, как переменные (здесь мои морфологические характеристики) связаны друг с другом, а не с отдельными наблюдениями. И когда я строю наблюдения, раскрашенные по группам, я получаю только одно значение (возможно, среднее), описывающее весь набор людей. Я провел анализ в R, так что, возможно, я просто недостаточно разбираюсь в R, чтобы реализовать свое представление о сюжете.
Правильно ли я пытаюсь провести такой анализ с моими данными или я не в порядке? Если вы не могли бы сказать, мой статистический опыт ограничен, поэтому уравнения, возникающие под этими анализами, находятся у меня над головой. Я пытаюсь провести этот анализ полностью описательно (мне не нужно больше обрабатывать номера вниз по течению), и я прочитал, что если это так, PCA будет достаточно, но хочу убедиться, что я не нарушая слишком много статистических предположений.
Ответы:
Это немного зависит от вашей цели, но если вам нужен инструмент визуализации, есть хитрость с применением многомерного масштабирования для вывода случайной близости от леса, которая может создавать красивые картинки и работать для смеси категориальных и непрерывных данных. Здесь вы бы классифицировали виды в соответствии с вашими предикторами. Но - и это большая оговорка - я не знаю, знает ли кто-нибудь действительно, что означают результаты этих визуализаций.
Другой альтернативой может быть применение многомерного масштабирования к чему-то похожему на подобие Гауэра.
Есть висячий вопрос - какова ваша конечная цель? На какой вопрос вы хотите ответить? Мне нравятся эти методы как исследовательские инструменты, которые, возможно, ведут вас к тому, чтобы задавать больше и лучше вопросов, но я не уверен, что они объясняют или говорят вам сами.
Может быть, я читаю слишком много в вашем вопросе, но если вы хотите исследовать, какие переменные предиктора имеют значения для гибридов, расположенных между двумя чистыми видами, возможно, вам лучше построить модель для оценки значений для переменных предиктора, которые приводят к видам и гибридам напрямую. Если вы хотите измерить, как переменные связаны друг с другом, возможно, построите матрицу корреляции - и для этого есть много интересных визуализаций.
источник