Если вы в последнее время читали бюллетени сообщества, вы, вероятно, видели сообщение «Охота на Снарка» на официальном блоге StackExchange Джоэла Спольски, генерального директора сети StackExchange. Он обсуждает статистический анализ, проведенный на примере комментариев SE, чтобы оценить их «дружелюбие» с точки зрения внешнего пользователя. Комментарии были случайным образом взяты из StackOverflow, и аналитики контента были членами сообщества Amazon Mechanical Turk, рынка труда, который связывает компании с работниками, которые выполняют небольшие короткие задачи за приемлемую плату.
Не так давно я был аспирантом по политологии, и одним из занятий, который я выбрал, был статистический анализ содержания . Окончательный проект класса, фактически вся его цель, состоял в том, чтобы провести подробный анализ военных сообщений New York Times, чтобы проверить, были ли правильны многие предположения американцев относительно освещения новостей во время войн (спойлер: свидетельства предполагают, что они не). Проект был огромным и довольно веселым, но самым болезненным его разделом был «этап обучения и проверки надежности», который произошел до того, как мы смогли провести полный анализ. Он преследовал две цели (подробное описание см. На стр. 9 связанного документа, а также ссылки на стандарты надежности интеркодеров в статистической литературе по контент-анализу):
Подтвердите, что все кодеры, то есть читатели контента, были обучены одинаковым качественным определениям. В анализе Джоэла это означало, что все будут точно знать, как проект определяет «дружественный» и «недружественный».
Подтвердите, что все кодеры интерпретировали эти правила надежно, то есть мы выбрали нашу выборку, проанализировали подмножество, а затем статистически продемонстрировали, что наши попарные корреляции по качественным оценкам были довольно похожи.
Проверка надежности повредила, потому что мы должны были сделать это три или четыре раза. Пока -1- не был заблокирован и -2- не показал достаточно высокие попарные корреляции, наши результаты для полного анализа были подозрительными. Они не могли быть продемонстрированы действительными или недействительными. Самое главное, мы должны были сделать пилотные испытания надежности перед окончательной выборкой.
Мой вопрос заключается в следующем: в статистическом анализе Джоэла не было экспериментального теста на надежность и не было установлено никаких эксплуатационных определений «дружелюбия». Были ли окончательные данные достаточно надежными, чтобы что-либо сказать о статистической достоверности его результатов?
С одной стороны, рассмотрим этот пример о значении надежности кодировщика и последовательных эксплуатационных определений. Более подробно из того же источника вы можете прочитать о тестах надежности пилота (пункт 5 в списке).
Согласно предложению Энди В. в своем ответе, я пытаюсь вычислить различные статистические данные о надежности набора данных, которые доступны здесь, используя эту серию команд в R (обновляется по мере того, как я вычисляю новую статистику).
Процентное соглашение (с допуском = 0): 0,0143
Процентное соглашение (с допуском = 1): 11,8
Альфа Криппендорфа : 0.1529467
Я также попытался модель ответа предмета для этих данных в другом вопросе.
источник
Ответы:
Эти меры по соглашению утверждают, что категориального соглашения практически не существует - каждый кодер имеет свою собственную внутреннюю точку отсечения для оценки комментариев как «дружественных» или «недружественных».
Если мы предположим, что три категории упорядочены, то есть: Недружественный <Нейтральный <Дружественный, мы также можем рассчитать внутриклассовую корреляцию как еще один показатель согласия. На случайной выборке из 1000 комментариев ICC (2,1) составляет 0,28, а ICC (2, k) - 0,88. Это означает, что если вы берете только одного из 20 оценщиков, результаты будут очень ненадежными (.28), если вы берете в среднем 20 оценщиков, результаты надежны (.88). Принимая разные комбинации трех случайных оценщиков, усредненная достоверность составляет от .50 до .60, что все равно будет считаться слишком низким.
Средняя двумерная корреляция между двумя кодерами составляет .34, что также довольно мало.
Если эти меры соглашения рассматриваются как мера качества кодеров (которые на самом деле должны показать хорошее согласие), ответ таков: они не являются хорошими кодерами и должны быть лучше обучены. Если это рассматривается как мера «насколько хорошо спонтанное согласие среди случайных людей», ответ также: не очень высокий. В качестве ориентира, средняя корреляция для оценок физической привлекательности составляет около .47 - .71 [1]
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. & Smoot, M. (2000). Максимы или мифы о красоте? Мета-аналитический и теоретический обзор. Психологический вестник, 126, 390–423. DOI: 10,1037 / 0033-2909.126.3.390
источник
Надежность баллов часто интерпретируется в терминах Классической Теории Тестов . Здесь каждый имеет истинный балл,
X
но при любом конкретном результате вы наблюдаете не только истинный балл, но и истинный балл с некоторой ошибкой (то естьObserved = X + error
). Теоретически, принимая несколько наблюдаемых мер одного и того же базового теста (делая некоторые предположения о распределении ошибок этих тестов), можно затем измерить ненаблюдаемую истинную оценку.Отметьте здесь, в этой структуре, что вы должны предположить, что ваши множественные наблюдаемые меры измеряют один и тот же базовый тест. Плохая надежность тестируемых элементов часто принимается как свидетельство того, что наблюдаемые измерения не измеряют один и тот же базовый тест. Это просто соглашение в данной области, хотя низкая надежность сама по себе не доказывает (в каком-либо статистическом смысле), что элементы не измеряют одну и ту же конструкцию. Таким образом, можно утверждать, что, приняв множество наблюдаемых мер, даже с очень ненадежными тестами, можно получить надежную меру истинной оценки.
Следует также отметить, что классическая теория тестов не обязательно является единственным способом интерпретации таких тестов, и многие ученые утверждают, что концепция скрытых переменных и теория отклика элемента всегда более уместна, чем классическая теория тестов.
Также аналогичное неявное допущение в классической теории испытаний, когда люди говорят, что надежность слишком высока. В нем ничего не говорится о достоверности того, измеряет ли конкретный элемент (ы) какой-либо базовый тест, но о том, что когда надежность слишком высока, исследователи принимают это как доказательство того, что ошибки между тестами не являются независимыми.
Я не совсем уверен, почему вы так не любите входить и рассчитывать надежность. Почему нельзя сделать это и впоследствии интерпретировать анализ в свете этой дополнительной информации?
источник
before the final analysis
, поэтому я не совсем уверен, откуда взялась эта идея.