Как на результаты формулы пророчества Спирмена-Брауна влияют вопросы теста с различными трудностями или оценщиками, которые являются легкими или твердыми учениками. В одном уважаемом тексте говорится, что SB затронут, но не дает подробностей. (См. Цитату ниже.)
Guion, R.M (2011). Оценка, измерение и прогнозирование кадровых решений, 2-е издание. Стр. 477
«Надежность может быть повышена путем объединения оценщиков с использованием уравнения Спирмена-Брауна. ... Если надежность одного рейтинга равна .50, то надежность двух, четырех или шести параллельных рейтингов будет приблизительно равна 0,67, 0,80. и .86 соответственно "(Houston, Raymond & Svec, 1991, p. 409). Мне нравится эта цитата, потому что слово приблизительно признает, что статистические оценки являются «в среднем» утверждениями того, что можно ожидать, если все пойдет так, как предполагалось. Кроме того, оперативное слово параллельно. Усреднение рейтингов (или использование Spearman-Brown), если один оценщик, например, систематически снисходителен, просто не соответствует предположению. Если каждый из эссе оценивается двумя оценщиками, один из которых более снисходительный, чем другой, то проблема заключается в том, чтобы использовать два теста с множественным выбором неравной сложности (непараллельные формы). Баллы, основанные на разных (несоответствующих) формах теста, не сопоставимы. Так же и со смешиванием мягких и сложных оценщиков; достоверность объединенных оценок неверно оценивается уравнением Спирмена-Брауна в классической теории испытаний. Дела хуже, если каждый судья определяет конструкцию немного по-другому ".
источник
Ответы:
Хотя я чувствую себя немного застенчивым, противоречащим как «уважаемому тексту», так и другому пользователю резюме, мне кажется, что формула Спирмена-Брауна не зависит от наличия предметов различной сложности. Безусловно, формула Спирмена-Брауна обычно выводится из предположения, что у нас есть параллельные предметы, что подразумевает (среди прочего), что предметы имеют одинаковую сложность. Но оказывается, что это предположение не является необходимым; это может быть смягчено, чтобы позволить неравные трудности, и формула Спирмена-Брауна все еще сохранится. Я продемонстрирую это ниже.
Напомним, что в классической теории испытаний измерение считается суммой компонента «истинной оценки» и компонента ошибки , то есть причем и коррелированы. Предположение о параллельных элементах состоит в том, что все элементы имеют одинаковые истинные оценки, отличающиеся только компонентами ошибок, хотя предполагается, что они имеют одинаковую дисперсию. В символах, для любой пары элементов иX T E
Теперь для определения достоверности формы испытаний таких предметов. Рассмотрим тест, состоящий из существу параллельных элементов, сумма которых дает оценку теста. Надежность, по определению, представляет собой отношение истинной дисперсии баллов к наблюдаемой дисперсии баллов. Что касается надежности отдельных элементов, то из определения существенного параллелизма следует, что они имеют одинаковую надежность, которую мы обозначаем с помощью и - истинная дисперсия баллов и - дисперсия ошибок. Для достоверности итоговой оценки, мы сначала исследуем дисперсию итоговой оценки, которая равнаk ρ=σ2T/(σ2T+σ2E) σ2T σ2E
@JeremyMiles поднимает несколько интересных и важных моментов о том, что может произойти, когда мы увеличиваем продолжительность теста «в реальном мире», но, по крайней мере, в соответствии с идеализированными предположениями классической теории испытаний, вариации в сложности предметов не имеют значения для надежности Форма теста (в резком контрасте с предположениями современной теории ответа предмета!). Эта же основная линия рассуждения также объясняет, почему мы обычно говорим о существенной тау-эквивалентности, а не тау-эквивалентности, потому что большинство всех важных результатов справедливо для более мягкого случая, когда трудности с предметом (т. Е. Средние) могут различаться.
источник
Это не легко сказать.
Во-первых, Спирмен-Браун предполагает, что тестовые элементы (или оценщики) отбираются случайным образом из совокупности тестовых элементов (или оценщиков). Это никогда не является правдой, особенно в отношении тестов, потому что составление большего количества элементов затруднительно, и вполне вероятно, что вы начнете использовать лучшие элементы - тогда вы обнаружите, что тест должен быть более длительным, поэтому вы «очистить бочку» для предметов.
Во-вторых, элементы отличаются по своей надежности, и надежность не обязательно связана с трудностью (если это помогает, подумайте о наклоне и пересечении кривой характеристики элемента в теории отклика элемента). Тем не менее, расчет надежности (скажем, альфа Кронбаха, который является формой внутриклассовой корреляции) предполагает, что все достоверности равны (они предполагают существенную тау-эквивалентную модель измерения - то есть, что все нестандартные достоверности каждого элемента - все равны). Это почти наверняка неправильно. Добавление предметов может идти вверх, может идти вниз. Это зависит от предметов.
Вот еще один способ думать об этом. Я случайным образом выбираю выборку из популяции и вычисляю среднее значение и стандартную ошибку среднего. Это среднее значение будет объективной оценкой среднего значения для населения. Затем я увеличиваю размер моей выборки - ожидаемое значение среднего значения такое же, но маловероятно, что оно на самом деле будет таким же - оно почти наверняка увеличится или уменьшится. Так же, как я ожидаю, что стандартная ошибка станет меньше, но величина, которую она сжимает, будет непостоянной (и для стандартной ошибки не может быть больше).
источник