Статистика Каппа ( ) - это показатель качества, который сравнивает наблюдаемое согласие между двумя оценщиками по номинальной или порядковой шкале с согласием, ожидаемым случайно (как если бы оценщики подбрасывали). Существуют дополнения для случая нескольких оценщиков (2, с. 284–291). В случае порядковых данных вы можете использовать взвешенное κ , которое в основном читается как обычно κ с недиагональными элементами, способствующими мере согласованности. Fleiss (3) предоставил рекомендации по интерпретации значений κ, но это всего лишь правила большого пальца.κ κκκ
статистики асимптотический эквивалентны МТПУ оценок от двухсторонней случайных эффектов ANOVA, но тесты на значимость и SE приходит от обычных рамок ANOVA не действительны с двоичными данными. Лучше использовать загрузчик, чтобы получить доверительный интервал (CI). Fleiss (8) обсудил связь между взвешенной каппой и внутриклассовой корреляцией (ICC).κ
Следует отметить, что некоторым психометристам не очень нравится потому что на него влияет распространенность объекта измерения, так же как на прогнозные значения влияет распространенность рассматриваемого заболевания, и это может привести к парадоксальным результатам.κ
Надежность между оценщиками для оценщиков можно оценить с помощью коэффициента согласования Кендалла, Вт . Когда количество предметов или единиц, которые имеют рейтинг n > 7 , k ( n - 1 ) W ∼ χ 2 ( n - 1 ) . (2, с. 269–270). Это асимптотическое приближение справедливо для умеренных значений n и k (6), но с менее чем 20 пунктами F или тесты перестановки являются более подходящими (7). Существует тесная связь между Спирманом ρ и Кендаллом WКWn > 7k ( n - 1 ) Вт~ χ2( n - 1 )NКFρWстатистика: может быть напрямую рассчитана из среднего значения попарных корреляций Спирмена (только для несвязанных наблюдений).W
Полихорическая (порядковые данные) корреляция также может использоваться как мера межрегионального согласия. Действительно, они позволяют
- оценить, какой была бы корреляция, если бы рейтинги были сделаны по непрерывной шкале,
- проверить предельную однородность между оценщиками.
Фактически можно показать, что это частный случай моделирования скрытых признаков, который позволяет ослабить предположения о распределении (4).
Что касается непрерывных (или предполагаемых) измерений, то ICC, который количественно оценивает долю дисперсии, относящуюся к вариации между субъектами, в порядке. Опять же, рекомендуется загружать CI. Как сказал @ars, существует в основном две версии - соглашение и согласованность - которые применимы в случае исследований согласия (5) и которые в основном отличаются по способу вычисления суммы квадратов; ICC «согласованности» обычно оценивается без учета взаимодействия Item × Rater. Инфраструктура ANOVA полезна для конкретного блочного дизайна, где нужно минимизировать количество оценок ( BIBD ) - фактически, это было одним из первоначальных мотивов работы Флейса. Это также лучший способ для нескольких оценщиков, Естественное продолжение этого подхода называется теорией обобщения . Краткий обзор дается в Rater Models: Введение , в противном случае стандартным справочником является книга Бреннана, рассмотренная в Psychometrika 2006 71 (3) .
Что касается общих ссылок, я рекомендую главу 3 Статистики в психиатрии от Грэма Данна (Hodder Arnold, 2000). Для более полной обработки исследований надежности, лучшая ссылка на сегодняшний день
Данн Г. (2004). Разработка и анализ исследований надежности . Арнольд. Смотрите обзор в Международном журнале эпидемиологии .
Хорошее онлайн-введение доступно на веб-сайте Джона Уберсакса, « Внутриклассовая корреляция и связанные методы» ; он включает в себя обсуждение плюсов и минусов подхода ICC, особенно в отношении порядковых шкал.
Соответствующие R-пакеты для двусторонней оценки (порядковые или непрерывные измерения) находятся в представлении задач психометрии ; Я обычно использую пакеты psy , psych или irr . Есть также пакет согласия , но я никогда не использовал его. Для работы с более чем двумя оценщиками пакет lme4 - это способ, позволяющий легко включать случайные эффекты, но большинство схем надежности можно проанализировать, используя только aov()
потому, что нам нужно только оценить компоненты дисперсии.
Ссылки
- J Коэн. Взвешенная каппа: Соглашение о номинальной шкале с учетом разногласий по частичному кредиту. Психологический вестник , 70 , 213-220, 1968.
- S Siegel и Jr N Джон Кастеллан. Непараметрическая статистика для поведенческих наук . McGraw-Hill, второе издание, 1988.
- JL Fleiss. Статистические методы для тарифов и пропорций . Нью-Йорк: Wiley, Второе издание, 1981.
- JS Uebersax. Коэффициенты тетрахорической и полихорической корреляции . Веб-сайт Статистических методов для Соглашения о рейтере, 2006. Доступно по адресу: http://john-uebersax.com/stat/tetra.htm . По состоянию на 24 февраля 2010 г.
- ЧП Шрут и Ж.Л. Флейс. Внутриклассовая корреляция: Используется при оценке достоверности оценок . Психологический вестник , 86 , 420–428, 1979.
- М. Г. Кендалл и Б. Бабингтон Смит. Проблема м рейтинга . Анналы математической статистики , 10 , 275–287, 1939.
- P Legendre. Коэффициент соответствия . В NJ Salkind, редактор, Энциклопедия исследований дизайна . Публикации SAGE, 2010.
- JL Fleiss. Эквивалентность взвешенной каппы и внутриклассового коэффициента корреляции как меры надежности . Образовательные и психологические измерения , 33 , 613-619, 1973.
Корреляции внутриклассовые могут быть использованы для порядковых данных. Но есть некоторые предостережения, в первую очередь из-за того, что оценщики не могут быть выделены. Подробнее об этом и о том, как выбрать одну из версий ICC, см .:
источник