Я предполагаю, что ваш вопросник следует рассматривать как одну одномерную шкалу (в противном случае альфа Кронбаха не имеет особого смысла). Стоит провести анализ фактора, чтобы проверить это. Это также позволит вам увидеть, как элементы относятся к шкале (то есть, через их загрузку).
Основные шаги для проверки ваших предметов и вашего масштаба должны включать:
- полный отчет по основной статистике предметов (диапазон, квартили, центральная тенденция, потолочные и минимальные эффекты, если таковые имеются);
- проверка внутренней согласованности, как вы сделали с вашей альфа (лучше всего, дать 95% доверительные интервалы, потому что это зависит от выборки);
- опишите вашу сводную меру (например, общий или средний балл, или шкалу баллов) с обычной статистикой (гистограмма + плотность, квантили и т. д.);
- сверяйте свои краткие ответы с конкретными ковариатами, которые, как предполагается, имеют отношение к конструкции, которую вы оцениваете - это называется валидностью известной группы;
- если возможно, сверяйте свои сводные ответы с известными инструментами, предназначенными для измерения одной и той же конструкции ( параллельная или конвергентная достоверность).
Если ваша шкала не является одномерной, эти шаги необходимо выполнить для каждой подшкалы, и вы также можете выделить матрицу корреляции ваших факторов для оценки структуры факторов второго порядка (или использовать моделирование структурных уравнений, или подтверждающий анализ факторов, или все что пожелаете). Вы также можете оценить конвергентную и дискриминантную валидность, используя мульти-чертовое масштабирование или мульти-мульти-методное моделирование (основанное на межтемповых корреляциях внутри и между шкалами), или, опять же, SEM.
Тогда я бы сказал, что теория отклика предмета не сильно поможет, если вы не заинтересованы в сокращении своей анкеты, отфильтровывании некоторых предметов, показывающих функционирование разностного предмета , или использовании своего теста в каком-то компьютерном адаптивном тесте .
В любом случае модель Rasch предназначена для двоичных элементов. Для политомных заказанных товаров наиболее часто используемые модели:
- модель дифференцированного ответа
- модель частичного кредита
- модель рейтинговой шкалы.
Только последние два принадлежат к семейству Раш, и они в основном используют смежную формулировку шансов с идеей, что субъект должен «пройти» несколько порогов, чтобы одобрить данную категорию ответа. Разница между этими двумя моделями заключается в том, что PCM не предполагает, что пороговые значения равномерно распределены по шкале тэта ( способности или местоположения субъекта на скрытой черте). Модель градуированного ответа опирается на совокупную формулировку шансов. Помните, что все эти модели предполагают, что масштаб является одномерным; то есть есть только одна скрытая черта. Существуют дополнительные предположения, такие как, например, местная независимость (то есть корреляции между ответами объясняются изменением в шкале способностей).
Во всяком случае, вы найдете очень полную документацию и полезные подсказки для применения психометрических методов в R в объеме 20 Журнала статистического программного обеспечения: Специальный Объем: психометрии в R . В основном, наиболее интересная R пакетов , которые я использую в своей повседневной работе: LTM , ERM , псих , пси . На другие ссылки ссылаются на представление задачи CRAN Психометрия . Другие ресурсы, представляющие интерес:
Хороший обзор использования FA против IRT при разработке шкалы можно найти в разделе Создание и оценка шкалы на практике: обзор применения факторного анализа в сравнении с теорией отклика предмета , автор Ten Holt et al. (Моделирование психологического теста и оценки (2010) 52 (3): 272-297).
Проверка анкеты означает, что она измеряет то, что она должна измерять. Поэтому я бы сказал, что это в основном не статистический вопрос, и на него нельзя ответить, не зная специфики вашего вопросника. Альфа-версия Кронбаха - не о достоверности, а о внутренней согласованности, которая в некоторой степени связана с надежностью (или можно сказать, что это надежность, предполагающая, что ваши вопросы взаимозаменяемы - но это не так).
Итак, что вы можете сделать, чтобы подтвердить свою анкету? Вы могли бы изучить, какие психологические процессы приводят к определенному шаблону результатов (например, пытаясь вызвать такие шаблоны с помощью экспериментальных манипуляций или используя процедуру «мысли вслух» [«анализ протокола», Ericsson & Simon, 1992]). Или сравните несколько контрастных групп (например, пациентов с контрольной группой), у которых должны быть разные оценки. Или сопоставьте его с внешним критерием, который следует сопоставить с характеристикой, которую вы измеряете. Или измерьте эту черту с помощью Psychoscope (TM) и используйте ее в качестве критерия.
Другие ответы более полезны, когда указывают на то, что вы, вероятно, можете реально сделать - даже если большинство из них, строго говоря, не о достоверности (за исключением ссылок Чи на «достоверность известной группы» и внешнюю достоверность).
См. Также Markus & Borsboom (2013) для современного подхода к валидности (эта и некоторые другие полезные ссылки на домашнюю страницу Borsboom ).
источник