Вычисление дисперсии Коэна (и стандартных ошибок)

44

Статистика Каппа ( κ ) была введена Коэном в 1960 году [1] для измерения согласия между двумя оценщиками. Однако его дисперсия была источником противоречий довольно долгое время.

Мой вопрос о том, какой расчет отклонений является лучшим для больших выборок. Я склонен полагать, что проверенный и подтвержденный Fleiss [2] будет правильным выбором, но, похоже, это не единственный опубликованный вариант, который кажется правильным (и использовался в сравнительно недавней литературе).

Прямо сейчас у меня есть два конкретных способа вычислить его асимптотическую дисперсию большой выборки:

  • Исправленный метод опубликован Fleiss, Cohen и Everitt [2];
  • Дельта-метод, который можно найти в книге Colgaton, 2009 [4] (стр. 106).

Чтобы проиллюстрировать эту путаницу, приведу цитату Флейса, Коэна и Эверитта [2], выделенную мной:

Многие человеческие усилия были прокляты повторяющимися неудачами, прежде чем был достигнут окончательный успех. Масштабирование горы Эверест является одним из примеров. Открытие Северо-Западного прохода - второе. Вывод правильной стандартной ошибки для каппа - третий .

Итак, вот небольшое резюме того, что произошло:

  • 1960: Коэн публикует свою статью «Коэффициент согласия для номинальных шкал» [1], в которой вводится его поправка на случайность, измеряемая соглашением между двумя оценщиками, называемая κ . Однако он публикует неправильные формулы для расчета дисперсии.
  • 1968: Эверитт пытается исправить их, но его формулы также были неверны.
  • 1969: Флейс, Коэн и Эверитт публикуют правильные формулы в статье «Стандартные ошибки большой выборки Каппа и взвешенной каппы» [2].
  • 1971: Fleiss публикует другую κ статистику (но другую) под тем же именем с неправильными формулами для отклонений.
  • 1979: Fleiss Nee и Landis публикуют исправленные формулы для Fleiss κ .

Сначала рассмотрим следующие обозначения. Это обозначение подразумевает, что оператор суммирования должен применяться ко всем элементам в измерении, над которым расположена точка:

   pi.=j=1kpij p . j = k i = 1 p i j   p.j=i=1kpij

Теперь можно вычислить Каппу как:

   κ^=popc1pe

В котором

   po=i=1kpii

   pc=i=1kpi.p.i

κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

и в соответствии с нулевой гипотезой это дается:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Метод Конгальтона, похоже, основан на дельта-методе получения дисперсий (Agresti, 1990; Agresti, 2002); однако я не уверен, что такое дельта-метод или почему он должен использоваться. дисперсии, в соответствии с этим методом, определяется по формуле:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

в котором

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton использует индекс а не , Но, похоже, это означает то же самое. Кроме того, я предполагаю, что должен быть матрицей подсчета, то есть матрицей путаницы, прежде чем разделить ее на число выборок как связаны формулой )+.nijpij=nijsamples

Другая странная часть заключается в том, что книга Колгатона, похоже, ссылается на оригинальную статью Коэна, но, похоже, не ссылается на исправления к дисперсии Каппа, опубликованные Флейссом и др., Пока он не продолжит обсуждение взвешенной каппы. Возможно, его первая публикация была написана, когда истинная формула для каппа была все еще потеряна в замешательстве?

Кто-нибудь может объяснить, почему эти различия? Или почему кто-то использует дисперсию дельта-метода вместо исправленной версии Fleiss?

[1]: Fleiss, Joseph L .; Коэн, Джейкоб; Эверитт, BS; Большие выборочные стандартные ошибки каппы и взвешенной каппы. Психологический вестник, том 72 (5), ноябрь 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Коэффициент согласия для номинальных шкал. Образовательные и психологические измерения 20 (1): 37–46. DOI: 10,1177 / 001316446002000104.

[3]: Алан Агрести, Категориальный анализ данных, 2-е издание. Джон Вили и сыновья, 2002.

[4]: Рассел Дж. Конгальтон и Грин, К .; Оценка точности данных дистанционного зондирования: принципы и практика, 2-е издание. 2009.

Cesar
источник
некоторые из ваших скобок отключены, не могли бы вы их исправить? Кроме того, вы можете отформатировать вложенные скобки как {[(x + y) ^ z + a] ^ b - c}, чтобы сделать их более удобочитаемыми.
StasK
также, пожалуйста, дайте сам и альтернативные эквивалентные формулировки, если они существуют. В зависимости от конкретных альтернативных формулировок, выражения дисперсии может быть легче получить. (Я имею в виду индекс Джини, для которого существует около пяти формулировок для данных iid, которые подразумевают совершенно разные оценки дисперсии для сложных данных обследования.)κ
StasK
Спасибо за ответ. Я исправил формулы и добавил, как вычисляется каппа. Формула Каппа кажется последовательной во всей литературе, но только ее дисперсия нет.
Цезарь
1
Кстати, я только что заметил, что в книге Колгатона есть ошибка при печати: он определяет , но этот возник из ниоткуда. Я предполагаю, что это должно было быть , иначе я не уверен, что это имеет большой смысл. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Цезарь
2
Я могу по крайней мере дать вам руку с этой части: «Я не уверен в том , что метод дельта» - en.wikipedia.org/wiki/Delta_method и дисперсия приходит от сюда
Glen_b

Ответы:

7

Я не знаю, какой из двух способов рассчитать дисперсию предпочтительнее, но я могу дать вам третий, практичный и полезный способ вычисления доверительных / вероятных интервалов, используя байесовскую оценку Каппа Коэна.

Приведенный ниже код R и JAGS генерирует образцы MCMC из апостериорного распределения достоверных значений Kappa с учетом данных.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

График ниже показывает график плотности образцов MCMC из апостериорного распределения каппа.

Задняя плотность каппа

Используя образцы MCMC, мы теперь можем использовать медианное значение в качестве оценки Каппа и использовать квантили 2,5% и 97,5% в качестве 95% -ного доверительного / вероятного интервала.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Сравните это с «классическими» оценками, рассчитанными по Флейсу, Коэну и Эверитту:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Лично я предпочел бы байесовский доверительный интервал по сравнению с классическим доверительным интервалом, тем более, что я считаю, что байесовский доверительный интервал имеет лучшие свойства малых выборок. Общее беспокойство, которое обычно имеют люди с байесовским анализом, заключается в том, что вы должны указать предварительные убеждения относительно распределения параметров. К счастью, в этом случае легко построить «объективные» априорные значения, просто поместив равномерное распределение по всем параметрам. Это должно сделать результат байесовской модели очень похожим на «классический» расчет коэффициента Каппа.

Ссылки

Санджиб Басу, Мусуми Банерджи и Ананда Сен (2000). Байесовский вывод для каппа из одного и нескольких исследований. Биометрия , вып. 56, № 2 (Jun., 2000), с. 577-582

Расмус Батх
источник
Знаете ли вы, если есть расширение для более чем двух оценщиков?
Fomite