Я немного запутался в отношении коэффициента внутриклассовой корреляции и одностороннего ANOVA. Насколько я понимаю, оба рассказывают, насколько похожи наблюдения внутри группы по сравнению с наблюдениями в других группах.
Может ли кто-то объяснить это немного лучше и, возможно, объяснить ситуацию, в которой каждый метод более выгоден?
Ответы:
Оба метода основаны на одной и той же идее - разложения наблюдаемой дисперсии на разные части или компоненты. Однако есть небольшие различия в том, рассматриваем ли мы предметы и / или оценщиков как фиксированные или случайные эффекты. Помимо того, что часть общей изменчивости объясняется коэффициентом между (или насколько отклонение между отклонениями от остаточной дисперсии), F-критерий мало что говорит. По крайней мере, это справедливо для одностороннего ANOVA, где мы предполагаем фиксированный эффект (и который соответствует ICC (1,1), описанному ниже). С другой стороны, ICC обеспечивает ограниченный индекс при оценке надежности рейтинга для нескольких «заменяемых» оценщиков или однородности среди аналитических единиц.
Мы обычно делаем следующее различие между различными видами ICC. Это следует из основополагающей работы Shrout и Fleiss (1979):
Это соответствует случаям 1-3 в их Таблице 1. Дополнительное различие может быть сделано в зависимости от того, считаем ли мы, что наблюдаемые оценки являются средними для нескольких оценок (они называются ICC (1, k), ICC (2, k), и ICC (3, k)) или нет.
В общем, вы должны выбрать правильную модель (односторонняя или двусторонняя), и это в основном обсуждается в статье Шрута и Флейса. Односторонняя модель, как правило, дает меньшие значения, чем двусторонняя модель; аналогично, модель случайных эффектов обычно дает более низкие значения, чем модель с фиксированными эффектами. ICC, полученный из модели с фиксированными эффектами, рассматривается как способ оценки согласованности оценщиков (поскольку мы игнорируем дисперсию оценок), в то время как для модели со случайными эффектами мы говорим об оценке согласия оценщиков (независимо от того, являются ли оценщики взаимозаменяемыми или нет). Только двусторонние модели включают взаимодействие субъекта с оценкой, которое может представлять интерес при попытке распутать нетипичные модели рейтинга.
На приведенном ниже рисунке легко копия / вставить пример из
ICC()
в психологически пакете (данные из Shrout и Fleiss, 1979). Данные состоят из 4 судей (J), оценивающих 6 предметов или целей (S), и суммированы ниже (я предполагаю, что они хранятся в виде названной матрицы Rsf
)Этот пример интересен, потому что он показывает, как выбор модели может повлиять на результаты, поэтому интерпретация исследования надежности. Все 6 моделей ICC следующие (это таблица 4 в статье Шрута и Флейса)
Как можно видеть, рассмотрение оценщиков как фиксированных эффектов (следовательно, не пытаясь обобщить для более широкого пула оценщиков) дало бы намного более высокое значение для однородности измерения. (Подобные результаты могут быть получены с помощью пакета irr (
icc()
), хотя мы должны поиграть с другой опцией для типа модели и единицы анализа.)О чем говорит нам подход ANOVA? Нам нужно подобрать две модели, чтобы получить соответствующие средние квадраты:
Не нужно смотреть на F-тест, здесь интересны только MS.
Теперь мы можем собрать различные части в расширенной таблице ANOVA, которая выглядит так, как показано ниже (это таблица 3 в статье Шрута и Флейса):
(источник: mathurl.com )
где первые два ряда взяты из односторонней модели, а следующие два - из двухстороннего ANOVA.
Все формулы легко проверить в статье Шрута и Флейса, и у нас есть все, что нам нужно, чтобы оценить надежность для одной оценки . Как насчет достоверности среднего значения множественных оценок (которое часто представляет собой интерес к межучрежденческим исследованиям)? Следуя Hays and Revicki (2005), его можно получить из приведенного выше разложения, просто изменив общее значение MS, рассматриваемое в знаменателе, за исключением модели двусторонних случайных эффектов, для которой мы должны переписать соотношение MS.
Опять же, мы обнаруживаем, что общая надежность выше, если рассматривать оценщиков как фиксированные эффекты.
Ссылки
источник