Каково обоснование, если таковое имеется, использования Дискриминантного анализа (DA) на результатах алгоритма кластеризации, такого как k-средних, как я вижу это время от времени в литературе (по существу, о клинических подтипах психических расстройств)?
Как правило, не рекомендуется проверять групповые различия по переменным, которые использовались во время построения кластера, поскольку они поддерживают максимизацию (соответственно минимизацию) инерции между классами (соответственно внутри класса). Таким образом, я не уверен, что в полной мере оценю добавленную стоимость прогностического DA, если только мы не попытаемся встроить индивидов в факториальное пространство более низкого измерения и получить представление о «обобщенности» такого разбиения. Но даже в этом случае кластерный анализ остается принципиально исследовательским инструментом, поэтому использование членства в классе, рассчитанного таким образом для дальнейшего получения правила подсчета очков, на первый взгляд кажется странным.
Любые рекомендации, идеи или указатели на соответствующие документы?
R
: cran.r-project.org/web/packages/adegenet/vignettes/…Ответы:
Я не знаю ни одной статьи по этому вопросу. Я использовал этот подход в описательных целях. DFA предоставляет хороший способ суммировать групповые различия и размерность по отношению к исходным переменным. Можно было бы проще просто профилировать группы по исходным переменным, однако это теряет многомерный характер проблемы кластеризации. DFA позволяет вам описывать группы, сохраняя при этом многомерный характер проблемы. Таким образом, это может помочь с интерпретацией кластеров, где это является целью. Это особенно идеально, когда существует тесная связь между вашим методом кластеризации и вашим методом классификации - например, DFA и методом Уорда.
Вы правы насчет проблемы тестирования. Я опубликовал статью, в которой использовал анализ кластеров с последующим анализом DFA для описания решения кластеризации. Я представил результаты DFA без статистики теста. Рецензент не согласился с этим. Я признал и поместил тестовую статистику и значения p туда с оговоркой, что эти значения p не следует интерпретировать традиционным способом.
источник