Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание кубиков») ) и рейтинги игроков этих игр (т. е. оценки из 10). Каждый из этих элементов дизайна соответствует тегу в системе BGG или VGG, поэтому каждый элемент по сути является дихотомической переменной. В игре есть 1 для каждого тега, который присутствует в базе данных, и 0 для каждого тега, который отсутствует.
Существует множество таких тегов, поэтому я хочу использовать исследовательский факторный анализ (EFA), чтобы создать управляемое количество «жанров», которые отражают шаблоны в игровом дизайне. Обращаясь к нескольким источникам, я понимаю, что, поскольку я работаю с дихотомическими переменными, я должен использовать полихорические корреляции ( тетрахорические , в частности, здесь) вместо Пирсона при определении моих факторов (есть и другие варианты, такие как анализ скрытых признаков). там, но это тот, который я сейчас изучаю).
Из любопытства я придумал два набора факторов, один из которых использовал корреляции Пирсона, а другой - полихорические корреляции (одно и то же число факторов каждый раз). Моя проблема заключается в том, что факторы, вычисленные с использованием корреляций Пирсона, имеют гораздо больше смысла и их легче интерпретировать, чем факторы, рассчитанные с использованием полихорических корреляций. Другими словами, «жанры» из первого набора факторов имеют интуитивный смысл и соответствуют моему пониманию того, как обычно создаются игры; это не относится ко второму набору факторов.
С одной стороны, я хочу убедиться в том, что я отвечаю допущениям тестов, которые я использую, даже если это делает мои результаты менее привлекательными. С другой стороны, я считаю, что часть цели факторного анализа и (в более широком смысле) построения моделей заключается в том, чтобы придумать что-то полезное, и более полезная информация появляется, когда я «нарушаю правила». Достаточно ли необходимости в полезной модели, чтобы перевесить нарушение допущений этого теста? Каковы последствия использования корреляций Пирсона вместо полихорических?
источник
Ответы:
Линейный фактор анализа теоретически , логически только для непрерывных переменных . Если переменные не являются непрерывными, но являются, например, дихотомическими, один из способов для вас - допустить наличие лежащих в основе непрерывных переменных и объявить, что наблюдаемые переменные являются базовыми или истинными. Вы не можете количественно определить дихотомическую переменную в масштабную без постороннего «наставника», но вы все равно можете вывести корреляции, которые были бы, если бы ваши переменные еще не были скомпонованы и были «оригинальными» непрерывно нормально распределенными. И это тетрахорическийкорреляции (или полихорические, если вместо двоичных у вас есть порядковые переменные). Таким образом, использование тетрахорических корреляций (предполагаемых корреляций Пирсона) вместо корреляций Фи (наблюдаемых корреляций Пирсона с дихотомическими данными) является логическим актом.
В исследованиях по моделированию / биннингу было доказано, что факторный анализ, основанный на тетрахорических корреляциях, ухудшается, если в матрице много сильных (> 0,7) корреляций. Тетрахорическая корреляция не идеальна: если точки среза коррелирующих базовых переменных находятся на противоположных сторонах (и, таким образом, предельные распределения в дихотомических структурах имеют противоположный перекос), тогда как базовая ассоциация является сильной, тетрахорический коэффициент переоценивает ее еще больше. Отметим также, что тетрахорическая корреляционная матрица не обязательно является положительной полуопределенной в небольших выборках и, следовательно, может нуждаться в коррекции («сглаживании»). Тем не менее, это рассматривается многими лучшим способом, чем факторный анализ простых коэффициентов Пирсона (фи).
Но почему именно факторный анализ на двоичные данные вообще? Есть и другие варианты, в том числе скрытая черта / IRT (форма «логистического» факторного анализа) и анализ множественной корреспонденции (если вы видите ваши двоичные переменные в качестве номинальных категорий).
Смотрите также:
источник