Как я могу использовать эти данные для калибровки маркеров с разным уровнем щедрости при оценке студенческих работ?

9

12 учителей обучают 600 учеников. 12 преподавателей, преподаваемых этими учителями, имеют размер от 40 до 90 учеников, и мы ожидаем систематических различий между когортами, поскольку аспиранты были непропорционально распределены по отдельным когортам, а предыдущий опыт показал, что аспиранты в среднем набирают значительно выше, чем студенты старших курсов.

Учителя оценили все документы в своей группе и поставили им оценку из 100.

Каждый учитель также просмотрел один случайно выбранный лист работы трех других учителей и дал ему оценку из 100. У каждого учителя было три его / ее работы, помеченные другим учителем. Таким образом, 36 различных документов были помечены таким образом, и я называю это своими данными калибровки.

Я также вижу, сколько аспирантов было в каждой когорте.

Мои вопросы:

А) Как я могу использовать эти данные калибровки, чтобы отрегулировать исходные метки, чтобы сделать их более справедливыми? В частности, я бы хотел как можно больше смыть последствия чрезмерно щедрых / не щедрых создателей.

Б) Насколько уместны мои данные калибровки? У меня не было выбора в довольно ограниченных 36 точках данных калибровки, которые я получил в этом курсе, и у меня нет никакой возможности собирать больше в течение текущего семестра. Тем не менее, если эта ситуация повторится, я смогу собрать больше данных калибровки или собрать другие типы данных калибровки.

Этот вопрос является родственником популярного вопроса, который я задавал: как мне лучше всего справиться с эффектами маркеров с различными уровнями щедрости при оценке студенческих работ? , Тем не менее, это другой курс, и я не уверен, насколько полезным будет чтение этого вопроса в качестве фона для этого текущего, поскольку главная проблема заключалась в том, что у меня не было данных калибровки.

teaching agreement-statistics user1205901 - Восстановить Монику
источник

6

Это звучит как отличная возможность использовать систему рекомендации матричной факторизации . Вкратце, это работает следующим образом:

Поместите свои наблюдения в частично наблюдаемую матрицу где - учитель, который дал ученику . $M$ $M_{ij}$ $i$ $j$
Предположим, что эта матрица является внешним произведением некоторых скрытых векторов признаков, и -, то есть . $\vec t$ $\vec s$ $M_{ij} = t_i s_j$
$\sum_{i,j} (t_is_j - M_{ij})^2$ $M$
$\vec t$ $\vec s$ $\vec s$ $\vec t$

$M_{ij} = \sum_{k=1}^n s_{ik} t_{kj}$ и снова попытайтесь минимизировать квадратичную ошибку реконструкции).

РЕДАКТИРОВАТЬ: чтобы иметь четко определенную проблему, вам нужно иметь больше матричных операций, чем скрытых параметров (или вы можете использовать некоторую регуляризацию). У вас просто нет этого здесь (у вас есть 636 наблюдений и 612 скрытых параметров), поэтому матричная факторизация может работать не очень хорошо - я не работал с ними на таких маленьких выборках, поэтому я действительно не знаю.

Если калибровка оказывается недостаточной для использования хорошей модели рекомендации, вы можете попробовать многоуровневую регрессию Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(игнорируя данные калибровки), чтобы извлечь оценки аддитивного смещения учителя, а затем проверить, согласуется ли это смещение с данными калибровки, которые вы взял. (Вы должны учитывать гетероскедастичность со стороны учителя, если это возможно.) Это более произвольно, но может привести к менее серьезным проблемам со сбором данных.

Бен Кун
источник

Чтобы расширить это, я, вероятно, начну с простой модели с учительскими фиксированными эффектами и потенциально кластеризованными устойчивыми стандартными ошибками (см. Этот пост в блоге для обсуждения этого в R), а затем сравню фиксированные эффекты для любых выбросов. В R что-то вроде lm(score ~ gradStudent + ... + teacherIDдолжно это сделать.

Якобус

2

Вот пара связанных подходов.

Возьмите набор работ, помеченных более чем одним учителем, поскольку в них содержится наибольшая информация об эффектах учителя и за пределами этих работ, эффекты учителя и когорты смешаны (если был какой-то способ получить эффект когорты - возможно, через GPA или какой-то другой предиктор, например, тогда вы могли бы использовать все данные, но это немного усложнит модели).

$i=1,2, ... n$ $j=1, 2, ...,m$ $y_{ij}, i=1,2, ... m$

Сначала вы должны рассмотреть свою модель на предмет применения эффекта маркера. Это добавка? Это мультипликативный? Вам нужно беспокоиться о граничных эффектах (например, будет ли аддитивный или мультипликативный эффект в логит-масштабе лучше)?

$p_{ij}=m_{ij}/100$ $p$ $\log(p_{ij}/(1-p_{ij})$

(У вас не будет достаточно данных, чтобы оценить форму щедрости, а также ее размер. Вы должны выбрать модель из своего понимания ситуации. Вам также нужно будет игнорировать любую возможность взаимодействия; вы не есть данные для этого)

Возможность 1 - простая аддитивная модель. Это может подойти, если никакие отметки не были действительно близки к 0 или 100:

$E(y_{ij}) = \mu_{i}+\tau_j$

Это по сути двухсторонний ANOVA. Вам нужны ограничения на это, так что вы можете настроить кодирование отклонения / настроить модель так, чтобы эффекты маркера были равны 0, или вы можете настроить модель, в которой один маркер является базовой линией (чей эффект равен 0, и чей маркер вы постараюсь настроить каждый второй маркер в сторону).

$\hat{\tau}_j$ $y_{kj}^\text{adj}=y_{kj}-\hat{\tau}_j$

$E(y_{ij}) = \mu_{i}\tau_j$ $\tau$

$\hat{\tau_j}$

$1-p=(100-m)/100$

Glen_b - Восстановить Монику
источник

Как я могу использовать эти данные для калибровки маркеров с разным уровнем щедрости при оценке студенческих работ?

Ответы: