Около 600 студентов имеют оценку по обширной части оценки, которая, как можно предположить, имеет хорошую надежность / достоверность. Оценка оценивается из 100, и это тест с множественным выбором, отмеченный компьютером.
У этих 600 студентов также есть оценка по второму, второстепенному, экзамену. В этой второй части оценки они разделены на 11 групп с 11 различными оценщиками, и существует нежелательно большая степень различия между оценщиками с точки зрения их «щедрости» в маркировке или ее отсутствия. Эта вторая оценка также оценивается из 100.
Студенты не были распределены по группам случайным образом, и есть веские основания ожидать различий в уровнях квалификации между группами.
Передо мной стоит задача обеспечить, чтобы различия между маркерами когорт во втором задании не оказывали существенного преимущества / недостатка отдельным учащимся.
Моя идея состоит в том, чтобы результаты когорт по второй оценке соответствовали результатам когорт по первой, сохраняя при этом индивидуальные различия внутри когорт. Мы должны предположить, что у меня есть веские основания полагать, что производительность по этим двум задачам будет сильно коррелировать, но маркеры значительно различаются по своей щедрости.
Это лучший подход? Если нет, то что?
Было бы очень признательно, если бы ответчик мог дать несколько практических советов о том, как реализовать хорошее решение, например, в R или SPSS или Excel.
источник
Ответы:
Зная , как грейдеры отличаются хорошо, но до сих пор не говорит вам , что для компенсации ранги в . Для простоты представьте только двух грейдеров. Даже если мы придем к выводу, что у 1-го класса на 5 баллов больше, чем у 2-го, это не говорит о том, что делать с двумя учениками, каждый из которых получил по 70, по одному на 1-й класс и на 2-й класс. был суровым маркером, и повысил рейтинг с 70 до 75, сохранив отметку 70 с отметкой 1 без изменений? Или мы предполагаем, что 1-й класс был чрезмерно снисходительным, сбил его ученика до 65 баллов и оставил без изменений 70-й класс 2-го класса? Мы идем на компромисс на полпути между - распространяясь на ваш случай, исходя из среднего показателя по 11 классам? Это абсолютные оценки, которые имеют значение, поэтому знание относительной щедрости недостаточно.
Ваш вывод может зависеть от того, насколько «объективным» вы считаете окончательный абсолютный результат. Одна ментальная модель - предложить каждому учащемуся «правильную» оценку - ту, которая будет присваиваться ведущим оценщиком, если у него будет время пометить каждую статью в отдельности, - к которой наблюдаемые оценки являются приблизительными. В этой модели наблюдаемые оценки должны быть компенсированы их оценщику, чтобы максимально приблизить их к их ненаблюдаемой "истинной" оценке. Другая модель может заключаться в том, что все оценки являются субъективными, и мы стремимся преобразовать каждую наблюдаемую оценку в отметку, которую, как мы предсказываем, она получила бы, если бы все оценщики рассмотрели одну и ту же бумагу и достигли какого-то компромисса или средней оценки за нее. Я считаю, что вторая модель менее убедительна как решение, даже если признание субъективности более реалистично. В образовательной среде обычно есть кто-то, кто несет конечную ответственность за оценку, чтобы гарантировать, что студенты получают «оценку, которую они заслуживают», но эта ведущая роль по существу сняла ответственность с тех самых учеников, которые, как мы уже знаем, заметно не согласны. Отсюда я предполагаю тамэто одна «правильная» оценка, которую мы стремимся оценить, но это оспариваемое предложение, которое может не соответствовать вашим обстоятельствам.
Предположим, что учащиеся A, B, C и D, все в одной и той же когорте, «должны» быть оценены как 75, 80, 85 и 90 соответственно, но их щедрый грейдер последовательно оценивает 5 баллов слишком высоко. Мы наблюдаем 80, 85, 90 и 95 и должны вычесть 5, но найти цифру для вычитания проблематично. Это невозможно сделать путем сравнения результатов между когортами, так как мы ожидаем, что когорты будут иметь средние способности. Одна из возможностей - использовать результаты теста с множественным выбором, чтобы предсказать правильные оценки по второму заданию, а затем использовать это для оценки различий между каждым классом и правильными оценками. Но делать такой прогноз нетривиально - если вы ожидаете, что между двумя оценками будет среднее значение и стандартное отклонение, вы не можете просто предположить, что вторые оценки должны соответствовать первой.
Кроме того, учащиеся различаются по относительным способностям при множественном выборе и письменных оценках. Вы можете рассматривать это как некоторый случайный эффект, формирующий компонент «наблюдаемых» и «истинных» оценок ученика, но не учитываемый их «прогнозируемой» оценкой. Если когорты систематически различаются, а учащиеся в когорте имеют тенденцию быть похожими, то не следует ожидать, что этот эффект будет усредняться до нуля в каждой когорте. Если наблюдаемые оценки когорты в среднем +5 по сравнению с их прогнозируемыми, это невозможноопределить, является ли это следствием щедрого грейдера, когорты, особенно лучше подходящей для письменной оценки, чем множественный выбор, или некоторой комбинации этих двух факторов. В крайнем случае, когорта может даже иметь более низкую способность при второй оценке, но это было более чем компенсировано очень щедрым оценщиком - или наоборот. Вы не можете разорвать это на части. Это сбито с толку.
Я также сомневаюсь в адекватности такой простой аддитивной модели для ваших данных. Оценщики могут отличаться от ведущего оценщика не только по смещению в местоположении, но и по разбросу - хотя, поскольку когорты, вероятно, различаются по однородности, вы не можете просто проверить распределение наблюдаемых оценок в каждой когорте, чтобы обнаружить это. Кроме того, большая часть распределения имеет высокие оценки, довольно близкие к теоретическому максимуму 100. Я ожидаю, что это приведет к введению нелинейности из-за сжатия вблизи максимума - очень щедрый грейдер может дать такие оценки A, B, C и D, как 85, 90, 94, 97. Это сложнее изменить, чем просто вычесть константу. Хуже того, вы можете увидеть «отсечение» - чрезвычайно щедрый грейдер может оценивать их как 90, 95, 100, 100. Это невозможнообратить вспять, и информация об относительной производительности C и D безвозвратно утеряна.
Ваши грейдеры ведут себя совсем по-другому. Вы уверены, что они отличаются только общей щедростью, а не щедростью в различных компонентах оценки? Это может стоить проверки, так как это может привести к различным осложнениям - например, наблюдаемая оценка для B может быть хуже, чем оценка для A, несмотря на то, что B на 5 баллов «лучше», даже если оценки, выставленные оценщиком для каждого компонента, являются монотонно возрастающей функцией Ведущий оценщик! Предположим, что оценка разделена между Q1 (A должен набрать 30/50, B 45/50) и Q2 (A должен набрать 45/50, B 35/50). Представьте, что грейдер очень снисходительно относится к Q1 (наблюдаемые оценки: A 40/50, B 50/50), но суров к Q2 (наблюдается: A 42/50, 30/50), тогда мы наблюдаем итоги 82 для A и 80 для B. Если вам нужно учитывать оценки компонентов,
Возможно, это расширенный комментарий, а не ответ, в том смысле, что он не предлагает конкретного решения в исходных рамках вашей проблемы. Но если ваши грейдеры уже обрабатывают около 55 документов каждая, то неужели им так плохо, что для калибровки приходится искать еще пять или десять? У вас уже есть хорошее представление о способностях студентов, поэтому вы можете выбрать образец документов из разных классов. Затем вы можете оценить, нужно ли вам компенсировать щедрость грейдера по всему тесту или по каждому компоненту, и нужно ли это делать, просто добавляя / вычитая константу, или с помощью чего-то более сложного, например, интерполяции (например, если вы беспокоитесь о линейность около 100). Но предупреждение об интерполяции: предположим, что ведущий оценщик помечает пять образцов документов как 70, 75, 80, 85 и 90, в то время как грейдер помечает их как 80, 88, 84, 93 и 96, так что есть некоторые разногласия по поводу порядка. Вы, вероятно, хотите отобразить наблюдаемые оценки от 96 до 100 на интервале от 90 до 100, а наблюдаемые оценки от 93 до 96 - на интервале от 85 до 90. Но для отметок ниже этого требуется некоторая мысль. Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки».
источник
Очень простая модель:
Каждая когорта предвзята силой своих учеников и легкостью грейдера. Предполагая, что это аддитивный эффект, мы отступим от него следующим образом: вычтем средний балл когорты в первом тесте и добавим средний балл когорты во втором тесте.
Недостатком является то, что отдельный студент может быть оштрафован, если во втором тесте людям из его когорты не повезло. Но любой статистический метод может привести к этому потенциально несправедливому недостатку.
источник
Ты не можешь По крайней мере, не без сбора дополнительных данных. Чтобы понять почему, прочитайте многочисленные комментарии @ whuber в этой теме.
источник
редактировать
Проблема, решаемая в этом ответе, заключается в том, чтобы найти учеников, которые дают меньше очков ученикам, которые им не нравятся.
Оригинальный пост
Мой подход, который я считаю простым в реализации, будет следующим:
1
Предположим, модель
2
И сделать 11 индивидуальных оценокграмм и σ
3
Теперь необычное наблюдение такое, что количество
Заметка
Всее Предполагается, что гауссовский. Оценки обычно не распределяются, поэтому рекомендации по размеруT трудно дать.
R-код
Ниже приведен код в R. Обратите внимание, что в вашем случае будут заданы как mu, так и y, поэтому генерирующие строки, когда им назначены номера rnorm, следует игнорировать. Я включил их, чтобы иметь возможность оценить сценарий без данных.
источник
Перефразируя проблему: как лучше всего подходить к установлению оценки из двух частей на экзамене с условиями, требующими, чтобы вторая часть подверглась большей неопределенности из-за диапазона качественных оценок делегированных маркеров.
Где: Мастер-тестер = ответственное лицо за экзамен. Делегированный тестер = лицо (1 из 11), назначенное для оценки пар № 2 экзамена. Студент = парень, который получает удовольствие от сдачи экзамена.
Цели включают в себя: A) Учащиеся получают оценку, отражающую их работу. B) Управляют неопределенностью второй части, чтобы соответствовать цели Мастера-тестировщика.
Предлагаемый подход (ответ): 1. Мастер-тестер случайным образом выбирает репрезентативный набор образцов экзаменов, отмечает часть № 2 и вырабатывает корреляцию с частью № 1. 2. Используйте корреляцию для оценки всех данных делегированных маркеров (Часть № 1). vs № 2) 3. Если корреляция значительно отличается от Мастер-тестера - значимость, которая будет приемлема для Мастера-тестера, - оцените экзамен как Мастер-тестер, чтобы переназначить результат.
Такой подход гарантирует, что Мастер Тестер несет ответственность за корреляцию и приемлемую значимость. Корреляция может быть такой же простой, как оценка для части № 1 против № 2 или относительная оценка для вопросов теста № 1 против № 2.
Мастер-тестер также сможет установить качество результата для части № 2 на основе "эластичности" корреляции.
источник