Корреляция между категориями между категориальными номинальными переменными

9

У меня есть набор данных с двумя категориальными номинальными переменными (обе с 5 категориями). Я хотел бы знать, если (и как) я могу определить потенциальные корреляции между категориями из этих двух переменных.

Другими словами, показывают ли, например, результаты категории в переменной 1 сильную корреляцию с определенной категорией j в переменной 2. Поскольку у меня есть две переменные с 5 категориями, общий корреляционный анализ для всех категорий снизится до 25 результатов (по крайней мере, если это работает так, как я надеюсь / ожидаю, что это будет работать).ij

Я попытался сформулировать проблему в конкретные вопросы:

Вопрос 1: допустим, я передаю категориальную переменную в 5 различных фиктивных переменных на значение (категорию). Эту же процедуру я запускаю и для второй переменной. Затем я хочу определить соотношение между фиктивными 1.i и 2.i (например). Является ли для меня статистически правильным выполнение этой процедуры с помощью обычной процедуры коэффициента корреляции? Обеспечивает ли коэффициент корреляции, вытекающий из этой процедуры, правильное понимание корреляции между двумя фиктивными переменными?

Вопрос 2: Если процедура, описанная в первом вопросе, является действительной процедурой, есть ли способ выполнить этот анализ для всех категорий 2 (или, возможно, более) категориальных номинальных переменных одновременно?

Я использую программу SPSS (20).

user32378
источник
Замечания, сделанные @Michael Mayer, относятся к пересмотренному вопросу.
Ник Кокс
1
χ2xy(OE)2EE=xyOxy/25Oxy
3
@Aksakal «Не коррелирует» - здесь неправильный термин; переменные являются номинальными, поэтому корреляции не определены. Я думаю, что вы имеете в виду независимость, но независимость также не подразумевает равных частот. Частоты соты в независимости зависят от предельных частот.
Ник Кокс

Ответы:

6

ijijij

Nв этом. Сравнивая ул. остатки в таблице и в таблицах с одинаковым объемом помогают идентифицировать конкретные ячейки, которые вносят наибольший вклад в статистику хи-квадрат.

NrijNrijijr

ijp<0.051Nrr2

Что касается вашего второго вопроса, о связях трехсторонней категории - это возможно как часть общего логлинейного анализа, который также отображает остатки. Тем не менее, практическое использование 3-сторонних остатков ячеек является скромным: 3 (+) - меры ассоциации не легко стандартизируются и не легко интерпретируются.


11.962

2ijrijPr(i,1)Pr(i,2)ii

ttnphns
источник
1

Непосредственно взят из документа по двумерной статистике с SPSS, который живет здесь :

Хи-квадрат является полезным методом, потому что вы можете использовать его, чтобы увидеть, есть ли связь между двумя порядковыми переменными, двумя номинальными переменными или между порядковым и номинальным значением. Ты смотришь на ассимп. Sig столбец и, если он меньше, чем 0,05, связь между двумя переменными является статистически значимым.

Zhubarb
источник
4
Хорошо, но три ворчания, один майор, два очень минор. Хи-квадрат по двум порядковым переменным игнорирует порядок. Это не SPSS документ, но элементарное введение кем - то еще, и они упрощать, как только что упоминалось. Они не копировали «Асимп». правильно (пример на предыдущей странице). Более важной проблемой для ОП является то, что здесь корреляция - это неправильное слово: «ассоциация» - это ключевое слово с точки зрения измерения, тестирования и (лучше всего) моделирования ассоциации.
Ник Кокс
1
Спасибо, я the SPSS documentнемного отредактировал, я не собирался придавать ему какую-либо излишнюю аутентичность.
Жубарб