Коэффициент внутриклассовой корреляции против F-критерия (односторонний ANOVA)?

10

Я немного запутался в отношении коэффициента внутриклассовой корреляции и одностороннего ANOVA. Насколько я понимаю, оба рассказывают, насколько похожи наблюдения внутри группы по сравнению с наблюдениями в других группах.

Может ли кто-то объяснить это немного лучше и, возможно, объяснить ситуацию, в которой каждый метод более выгоден?

blep
источник
Пожалуйста, найдите время, чтобы взглянуть на метки надежности или оценки . ICC основан на таблице ANOVA, но идея состоит в том, чтобы просто анализировать дисперсионные компоненты, а не создавать единую статистику теста с известными свойствами распределения, такими как F-тест. Какое приложение вы имеете в виду?
Chl
@chl Я хочу проанализировать индивидуальные оценки для сгруппированных данных. Я видел несколько работ, в которых анализировались различия между оценками родителей и детей, с использованием ICC, чтобы определить, была ли значительная разница в ответах родителей и детей. Я думаю, что ICC - это то, что я хочу здесь, но, как я уже говорил, я не очень понимаю разницу между ними. Стесняюсь спросить больше, но знаете ли вы какие-нибудь хорошие (базовые) ссылки? Мой статистический фон остановился на линейной регрессии, и я чувствую, что задаю вопросы, которые не очень хорошо сформулированы. Спасибо.
blep
Похоже, у вас есть парные данные. При рассмотрении отдельных групп (родители против их детей) и использовании ICC для сообщения о достоверности баллов, вы отбрасываете часть информации, то есть соответствуют ли оценки родителей и их родственников последовательному действию. Ваши два ICC только скажут вам, являются ли обе серии оценок, предположительно независимыми, «надежными» в том смысле, что значительная часть отклонения может быть объяснена эффектом оценки. (...)
Chl
(...) В целом, если вы хотите показать, что родительские рейтинги более надежны, чем детские, то использование ICC - это нормально; если, с другой стороны, вы хотите изучить, как родительские рейтинги соотносятся с детскими, то вы можете прибегнуть к другому виду анализа (точнее, анализу двоичных данных).
Chl

Ответы:

17

Оба метода основаны на одной и той же идее - разложения наблюдаемой дисперсии на разные части или компоненты. Однако есть небольшие различия в том, рассматриваем ли мы предметы и / или оценщиков как фиксированные или случайные эффекты. Помимо того, что часть общей изменчивости объясняется коэффициентом между (или насколько отклонение между отклонениями от остаточной дисперсии), F-критерий мало что говорит. По крайней мере, это справедливо для одностороннего ANOVA, где мы предполагаем фиксированный эффект (и который соответствует ICC (1,1), описанному ниже). С другой стороны, ICC обеспечивает ограниченный индекс при оценке надежности рейтинга для нескольких «заменяемых» оценщиков или однородности среди аналитических единиц.

Мы обычно делаем следующее различие между различными видами ICC. Это следует из основополагающей работы Shrout и Fleiss (1979):

  • Модель односторонних случайных эффектов , ICC (1,1): каждый элемент оценивается разными оценщиками, которые считаются отобранными из большого пула потенциальных оценщиков, следовательно, они рассматриваются как случайные эффекты; ICC затем интерпретируется как% от общей дисперсии, обусловленной дисперсией предметов / предметов. Это называется согласованность ICC.
  • Модель двусторонних случайных эффектов , ICC (2,1): оба фактора - оценщики и предметы / субъекты - рассматриваются как случайные эффекты, и у нас есть два компонента дисперсии (или средних квадратов) в дополнение к остаточной дисперсии; мы также предполагаем, что оценщики оценивают все предметы / предметы; ICC дает в этом случае% дисперсии, относящейся к оценщикам + предметы / предметы.
  • Двусторонняя смешанная модель , ICC (3,1): в отличие от одностороннего подхода, здесь оценщики рассматриваются как фиксированные эффекты (без обобщения за пределами рассматриваемой выборки), но предметы / субъекты рассматриваются как случайные эффекты; Единицей анализа может быть индивидуальный или средний рейтинг.

Это соответствует случаям 1-3 в их Таблице 1. Дополнительное различие может быть сделано в зависимости от того, считаем ли мы, что наблюдаемые оценки являются средними для нескольких оценок (они называются ICC (1, k), ICC (2, k), и ICC (3, k)) или нет.

В общем, вы должны выбрать правильную модель (односторонняя или двусторонняя), и это в основном обсуждается в статье Шрута и Флейса. Односторонняя модель, как правило, дает меньшие значения, чем двусторонняя модель; аналогично, модель случайных эффектов обычно дает более низкие значения, чем модель с фиксированными эффектами. ICC, полученный из модели с фиксированными эффектами, рассматривается как способ оценки согласованности оценщиков (поскольку мы игнорируем дисперсию оценок), в то время как для модели со случайными эффектами мы говорим об оценке согласия оценщиков (независимо от того, являются ли оценщики взаимозаменяемыми или нет). Только двусторонние модели включают взаимодействие субъекта с оценкой, которое может представлять интерес при попытке распутать нетипичные модели рейтинга.

На приведенном ниже рисунке легко копия / вставить пример из ICC()в психологически пакете (данные из Shrout и Fleiss, 1979). Данные состоят из 4 судей (J), оценивающих 6 предметов или целей (S), и суммированы ниже (я предполагаю, что они хранятся в виде названной матрицы R sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Этот пример интересен, потому что он показывает, как выбор модели может повлиять на результаты, поэтому интерпретация исследования надежности. Все 6 моделей ICC следующие (это таблица 4 в статье Шрута и Флейса)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Как можно видеть, рассмотрение оценщиков как фиксированных эффектов (следовательно, не пытаясь обобщить для более широкого пула оценщиков) дало бы намного более высокое значение для однородности измерения. (Подобные результаты могут быть получены с помощью пакета irr ( icc()), хотя мы должны поиграть с другой опцией для типа модели и единицы анализа.)

О чем говорит нам подход ANOVA? Нам нужно подобрать две модели, чтобы получить соответствующие средние квадраты:

  • односторонняя модель, которая рассматривает только предмет; это позволяет разделить оцениваемые цели (между группами MS, BMS) и получить оценку в пределах ошибки (WMS)
  • двусторонняя модель, которая рассматривает субъект + оценщик + их взаимодействие (когда нет повторений, этот последний член будет смешан с остатками); это позволяет оценить основной эффект (JMS), который можно учесть, если мы хотим использовать модель случайных эффектов (т.е. мы добавим ее к общей изменчивости)

Не нужно смотреть на F-тест, здесь интересны только MS.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Теперь мы можем собрать различные части в расширенной таблице ANOVA, которая выглядит так, как показано ниже (это таблица 3 в статье Шрута и Флейса):


(источник: mathurl.com )

где первые два ряда взяты из односторонней модели, а следующие два - из двухстороннего ANOVA.

Все формулы легко проверить в статье Шрута и Флейса, и у нас есть все, что нам нужно, чтобы оценить надежность для одной оценки . Как насчет достоверности среднего значения множественных оценок (которое часто представляет собой интерес к межучрежденческим исследованиям)? Следуя Hays and Revicki (2005), его можно получить из приведенного выше разложения, просто изменив общее значение MS, рассматриваемое в знаменателе, за исключением модели двусторонних случайных эффектов, для которой мы должны переписать соотношение MS.

  • В случае ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) общая надежность вычисляется как (BMS-WMS) /BMS=0,443.
  • Для ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) общая надежность составляет (N • (BMS-EMS)) / (Н • BMS + JMS-EMS) = 0,620.
  • Наконец, для ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) мы имеем надежность (BMS-EMS) /BMS=0,909.

Опять же, мы обнаруживаем, что общая надежность выше, если рассматривать оценщиков как фиксированные эффекты.

Ссылки

  1. Shrout, PE и Fleiss, JL (1979). Внутриклассные корреляции: использование при оценке достоверности оценок . Психологический вестник , 86, 420-3428.
  2. Хейс Р.Д. и Ревицки Д. (2005). Надежность и обоснованность (в том числе отзывчивость). В Фейерс, П. и Хейс, RD (ред.), Оценка качества жизни в клинических испытаниях , 2-е изд., С. 25-39. Издательство Оксфордского университета.
хл
источник