Как рассчитать соотношение между / внутри группы переменных?

13

У меня есть матрица из 1000 наблюдений и 50 переменных, каждая из которых измеряется по 5-балльной шкале. Эти переменные организованы в группы, но в каждой группе нет одинакового количества переменных.

Я хотел бы рассчитать два типа корреляций:

  1. Корреляция в группах переменных (среди характеристик): некоторая мера того, измеряют ли переменные в группе переменных одно и то же.
  2. Корреляция между группами переменных: некоторая мера, предполагающая, что каждая группа отражает одну общую черту, как каждая черта (группа) связана с каждой другой чертой.

Эти характеристики были ранее классифицированы по группам. Я заинтересован в нахождении корреляции между группами - то есть, предполагая, что характеристики внутри группы измеряют одну и ту же базовую черту (завершив № 1 выше - альфа Кронбаха), связаны ли сами черты?

У кого-нибудь есть предложения, с чего начать?

blep
источник
1
Если вы знакомы с R, есть пакет veganс функциями anosimили, желательно, adonis(перестановочный MANOVA).
Роман Луштрик
Я обновил ваш вопрос, чтобы попытаться использовать стандартную терминологию (то есть переменные, а не характеристики; группы переменных, а не «группы»)
Jeromy Anglim

Ответы:

16

То, что предложил @rolando, выглядит хорошим началом, если не полным ответом (IMO). Позвольте мне продолжить корреляционный подход, следуя концепции Классической Теории Тестов (CTT). Здесь, как отмечает @Jeromy, суммарный показатель для вашей группы характеристик может рассматриваться как итоговый (или суммарный) балл всех элементов (характеристика, по вашим словам), принадлежащих к тому, что я сейчас буду называть шкалой. В рамках CTT это позволяет нам формализовать индивидуальную склонность или ответственность «черты» в качестве своего местоположения в непрерывном масштабе, отражающем базовую конструкцию (скрытую черту), хотя здесь это просто порядковый масштаб (но это еще одна дискуссия в психометрической литературе) ,

То, что вы описали, имеет отношение к так называемой конвергентной (в какой степени элементы, принадлежащие к одной и той же шкале, коррелируют друг с другом) и дискриминантной (элементы, принадлежащие к разным шкалам, не должны в значительной степени коррелировать) в психометрии. Классические методы включают в себя мульти-чертный мультиметодный (MTMM) анализ (Campbell & Fiske, 1959). Иллюстрация того, как это работает, показана ниже (три метода или инструмента, три конструкции или черты):

введите описание изображения здесь

>0.7<0,3

Даже если этот метод изначально разрабатывался для оценки сходящейся и дискриминантной достоверности определенного числа признаков, изученных различными измерительными инструментами, он может применяться для одного мультимасштабного инструмента. Затем черты становятся предметами, а методы - просто разными масштабами. Обобщение этого метода для одного инструмента также известно как многопотоковое масштабирование . Элементы, коррелирующие как ожидалось (то есть с их собственным масштабом, а не другим масштабом), учитываются как успех масштабирования, Однако мы обычно предполагаем, что разные шкалы не коррелированы, то есть они нацелены на разные гипотетические конструкции. Но усреднение внутрикорпоративных и межмасштабных корреляций обеспечивает быстрый способ обобщения внутренней структуры вашего инструмента. Еще один удобный способ сделать это - применить кластерный анализ к матрице попарных корреляций и посмотреть, как ваши переменные связаны друг с другом.

Следует отметить, что в обоих случаях применяются обычные предостережения о работе с показателями корреляции, то есть вы не можете учитывать погрешность измерения, вам нужна большая выборка, инструменты или тесты считаются «параллельными» (тау-эквивалентность, некоррелированные ошибки, равные отклонения ошибок).

Вторая часть, рассматриваемая @rolando, также интересна: если нет теоретических или существенных указаний на то, что уже установленная группировка элементов имеет смысл, вам нужно будет найти способ выделить структуру ваших данных, например, с помощью исследовательского факторного анализа. , Но даже если вы доверяете этим «характеристикам в группе», вы можете проверить, что это верное предположение. Теперь вы можете использовать модель подтверждающего факторного анализа для проверки того, что шаблон загрузки элементов (корреляция элемента с его собственным масштабом) ведет себя как ожидалось.

Вместо традиционных методов факторного анализа вы также можете взглянуть на кластеризацию элементов (Revelle, 1979), которая опирается на альфа-правило Кронбаха для группировки элементов в однородные масштабы.

Последнее слово: если вы используете R, есть два очень хороших пакета, которые облегчат вышеупомянутые шаги:

  • псих , предоставляет вам все , что нужно для начала работы с методами психометрии, в том числе факторного анализа ( fa, fa.parallel, principal), элементами кластеризации ( ICLUSTи связанная с ними методу), альфа Кронбаха ( alpha); есть хороший обзор можно найти на сайте William РЕВЕЛЛЫ, особенно введение в психометрических теорию с приложениями в R .
  • psy , также включает в себя scree plot (через PCA + моделируемые наборы данных) визуализацию ( scree.plot) и MTMM ( mtmm).

Ссылки

  1. Кэмпбелл Д.Т. и Фиске Д.В. (1959). Конвергентная и дискриминантная валидация по многоходовой мультиметодной матрице. Психологический вестник , 56: 81–105.
  2. Хейс Р.Д. и Файерс П. (2005). Оценка многоэлементных шкал. В Оценка качества жизни в клинических испытаниях , (Fayers, P. и Hays, R., Eds.), С. 41-53. Оксфорд.
  3. Revelle, W. (1979). Иерархический кластерный анализ и внутренняя структура тестов. Многомерное поведенческое исследование , 14: 57-74.
хл
источник
Это, пожалуй, самый интересный ответ, который я читал на любой бирже, и я изучал эконометрику в течение 5 лет.
d8aninja
Предполагается, что включенная здесь матрица МТММ является реальным примером корреляционной матрицы? Если это так, я отмечу, что на самом деле это не положительная полуопределенная матрица: например, минор 4 на 4 для корреляции признаков 1,2 по методам 1,2 имеет определитель -0,0419179. (Так как это небольшое отрицательное значение, возможно, это просто относится к вашей точке зрения: «ошибка измерения».)
Квазиклассическое
7

То, как я читаю вашу терминологию, вы хотите сначала оценить внутреннюю согласованность в каждой группе переменных, а затем оценить корреляции между оценками по шкале, которые составляют среднее значение для каждой группы переменных. Первое может быть сделано с использованием альфы Кронбаха, а второе - с помощью корреляции Пирсона. Это предполагает, что у вас достаточно нормальные распределения и разумно линейные отношения.

Более сложный метод, и не обязательно обязательный, заключается в проведении исследовательского анализа факторов. Вы попытаетесь установить, какие переменные должны быть сгруппированы, а затем еще раз, в какой степени эти факторы будут коррелировать. Если вы попробуете этот метод, убедитесь, что вы используете наклонное вращение, чтобы показать эти корреляции. Используете ли вы извлечение основных компонентов или извлечение главной оси, будет зависеть, соответственно, от того, являются ли ваши переменные объективными, безошибочными измерениями или субъективными, такими как элементы опроса, которые содержат определенное количество ошибок.

rolando2
источник
Спасибо за ваш ответ. Мне удалось вычислить альфу Кронбаха, но как рассчитать коэффициенты корреляции Пирсона в этом случае? Я мог бы рассчитать их попарно для каждой отдельной характеристики, но я хотел бы знать, как рассчитать корреляции между группами характеристик. Характеристики в группе будут иметь одинаковые оценки для каждого наблюдения. Я собираюсь отредактировать мой вопрос, чтобы сделать это немного яснее.
blep
5
  • Стандартными инструментами, по крайней мере, в психологии, в вашей ситуации будет исследовательский и подтверждающий факторный анализ для оценки конвергенции матрицы межэлементной корреляции с некоторой предлагаемой моделью взаимосвязи между факторами и предметами. То, как вы сформулировали свой вопрос, говорит о том, что вы, возможно, не знакомы с этой литературой. Например, вот мои заметки о построении шкалы и факторном анализе, а также учебник по R для факторного анализа в форме Quick-R . Таким образом, хотя стоит ответить на ваш конкретный вопрос, я думаю, что вашим более широким целям будет лучше соответствовать анализ факторных аналитических подходов к оценке многоэлементных, многофакторных шкал.

  • Другой стандартной стратегией будет вычисление общих баллов для каждой группы переменных (то, что я бы назвал «шкалой») и корреляция шкал.

  • Многие инструменты анализа надежности сообщают о средней межэлементной корреляции.

  • Если вы создали матрицу корреляций 50 на 50 между элементами, вы можете написать функцию в R, которая будет усреднять подмножества на основе комбинаций групп переменных. Вы можете не получить желаемого, если у вас есть смесь положительных и отрицательных элементов, поскольку отрицательные корреляции могут нейтрализовать положительные корреляции.

Джером англим
источник
2

Я бы предложил использовать в качестве замены понятие корреляции, которое определяется только для пар, понятие взаимной информации и интеграции в гауссовых моделях.

В гауссовых моделях интегрирование группы переменныхграмм1 определяется как энтропия группы:

я1αLограмм(|С1|)

где С1 корреляционная матрица группы переменных грамм1, Легко видеть, что еслиграмм1 состоит только из 2 переменных, его интеграция Lограмм(1-ρ2), что напрямую связано с коэффициентом парной корреляции переменных ρ,

Чтобы вычислить взаимодействие между двумя группами переменных, вы можете использовать взаимную информацию, которая является просто перекрестной энтропией между группами:

MU12знак равноя12-я1-я2

Я нашел ссылку на эти понятия после быстрого Google, который может быть полезным.

Gael Varoquaux
источник