Каковы опасности расчета корреляций Пирсона (вместо тетрахорических) для бинарных переменных в факторном анализе?

10

Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание кубиков») ) и рейтинги игроков этих игр (т. е. оценки из 10). Каждый из этих элементов дизайна соответствует тегу в системе BGG или VGG, поэтому каждый элемент по сути является дихотомической переменной. В игре есть 1 для каждого тега, который присутствует в базе данных, и 0 для каждого тега, который отсутствует.

Существует множество таких тегов, поэтому я хочу использовать исследовательский факторный анализ (EFA), чтобы создать управляемое количество «жанров», которые отражают шаблоны в игровом дизайне. Обращаясь к нескольким источникам, я понимаю, что, поскольку я работаю с дихотомическими переменными, я должен использовать полихорические корреляции ( тетрахорические , в частности, здесь) вместо Пирсона при определении моих факторов (есть и другие варианты, такие как анализ скрытых признаков). там, но это тот, который я сейчас изучаю).

Из любопытства я придумал два набора факторов, один из которых использовал корреляции Пирсона, а другой - полихорические корреляции (одно и то же число факторов каждый раз). Моя проблема заключается в том, что факторы, вычисленные с использованием корреляций Пирсона, имеют гораздо больше смысла и их легче интерпретировать, чем факторы, рассчитанные с использованием полихорических корреляций. Другими словами, «жанры» из первого набора факторов имеют интуитивный смысл и соответствуют моему пониманию того, как обычно создаются игры; это не относится ко второму набору факторов.

С одной стороны, я хочу убедиться в том, что я отвечаю допущениям тестов, которые я использую, даже если это делает мои результаты менее привлекательными. С другой стороны, я считаю, что часть цели факторного анализа и (в более широком смысле) построения моделей заключается в том, чтобы придумать что-то полезное, и более полезная информация появляется, когда я «нарушаю правила». Достаточно ли необходимости в полезной модели, чтобы перевесить нарушение допущений этого теста? Каковы последствия использования корреляций Пирсона вместо полихорических?

Спенсер Гринхалх
источник
1
Предположения, лежащие в основе многомерной нормальности, настолько сильны с данными более трех или около того измерений, что полихорические корреляции перестают иметь такой смысл. Степень неправильной спецификации модели с полихорическими корреляциями, скорее всего, делает ваш анализ довольно бесполезным. Я не уверен, зачем вам эти корреляции в первую очередь, хотя: если у вас есть четкая переменная результата (рейтинг) и куча объясняющих переменных (конструктивные особенности), вам нужен регрессионный анализ, а не факторный анализ.
StasK
@StasK регрессионный анализ является моей конечной целью, но у меня есть более 100 объясняющих переменные и хотел бы уменьшить , что к более управляемому числу.
Спенсер Гринхалг
Кроме того, для таких задач классификация является самоцелью.
Пере

Ответы:

7

Линейный фактор анализа теоретически , логически только для непрерывных переменных . Если переменные не являются непрерывными, но являются, например, дихотомическими, один из способов для вас - допустить наличие лежащих в основе непрерывных переменных и объявить, что наблюдаемые переменные являются базовыми или истинными. Вы не можете количественно определить дихотомическую переменную в масштабную без постороннего «наставника», но вы все равно можете вывести корреляции, которые были бы, если бы ваши переменные еще не были скомпонованы и были «оригинальными» непрерывно нормально распределенными. И это тетрахорическийкорреляции (или полихорические, если вместо двоичных у вас есть порядковые переменные). Таким образом, использование тетрахорических корреляций (предполагаемых корреляций Пирсона) вместо корреляций Фи (наблюдаемых корреляций Пирсона с дихотомическими данными) является логическим актом.

r=1rr, но в дихотомических переменных этот эффект является наиболее резким, потому что слишком мало значений для принятия.) Таким образом, фи-корреляции в их матрице можно рассматривать как неравномерно дефлированные из-за контрастных краевых распределений в дихотомических переменных; Вы не знаете, является ли одна корреляция больше, чем другая «истинно», или из-за разных точек среза в этих двух парах переменных. Число извлекаемых факторов (следующих критериев, таких как «собственное значение Кайзера> 1») будет завышено: некоторые извлеченные «факторы» являются результатом неравномерности, разнообразия точек разреза, а не существенных скрытых факторов. Это практическая причина, почему бы не использовать фи корреляции (по крайней мере, в необработанном виде).

В исследованиях по моделированию / биннингу было доказано, что факторный анализ, основанный на тетрахорических корреляциях, ухудшается, если в матрице много сильных (> 0,7) корреляций. Тетрахорическая корреляция не идеальна: если точки среза коррелирующих базовых переменных находятся на противоположных сторонах (и, таким образом, предельные распределения в дихотомических структурах имеют противоположный перекос), тогда как базовая ассоциация является сильной, тетрахорический коэффициент переоценивает ее еще больше. Отметим также, что тетрахорическая корреляционная матрица не обязательно является положительной полуопределенной в небольших выборках и, следовательно, может нуждаться в коррекции («сглаживании»). Тем не менее, это рассматривается многими лучшим способом, чем факторный анализ простых коэффициентов Пирсона (фи).

Но почему именно факторный анализ на двоичные данные вообще? Есть и другие варианты, в том числе скрытая черта / IRT (форма «логистического» факторного анализа) и анализ множественной корреспонденции (если вы видите ваши двоичные переменные в качестве номинальных категорий).

Смотрите также:

ttnphns
источник
Проверьте также stats.stackexchange.com/a/219814/3277
ttnphns