В социальной науке часто возникает мысль о том, что переменные, которые должны быть распределены каким-либо образом, скажем, нормально, в конечном итоге имеют разрыв в распределении вокруг определенных точек.
Например, если существуют определенные ограничения, такие как «прохождение / отказ» и если эти меры подвержены искажениям, в этой точке может быть разрыв.
Одним из ярких примеров (приведенных ниже) является то, что результаты стандартных тестов учащихся обычно распределяются в основном везде, за исключением 60%, где очень мало массы от 50-60% и избыточной массы около 60-65%. Это происходит в тех случаях, когда учителя оценивают своих учеников на экзамены. Авторы выясняют, действительно ли учителя помогают ученикам сдать экзамены.
Самым убедительным доказательством без сомнения являются показы графиков кривой колокола с большим разрывом вокруг разных пределов для разных тестов. Тем не менее, как бы вы пошли о разработке статистического теста? Они попытались интерполировать и затем сравнить дробь выше или ниже, а также t-критерий для дроби на 5 баллов выше и ниже порога отсечки. В то время как разумно, они являются специальными. Кто-нибудь может придумать что-нибудь лучше?
Ссылка: правила и конфиденциальность в оценке учащихся и школ: пример экзаменов в Нью-Йоркских регентах http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
источник
Ответы:
Важно правильно сформулировать вопрос и принять полезную концептуальную модель оценки.
Вопрос
Потенциальные пороги мошенничества, такие как 55, 65 и 85, известны априори независимо от данных: их не нужно определять из данных. (Следовательно, это не является проблемой обнаружения выбросов или проблемой подгонки распределения.) Тест должен оценить свидетельство того, что некоторые (не все) оценки, чуть меньшие, чем эти пороговые значения, были перемещены к этим пороговым значениям (или, возможно, только выше этих пороговых значений).
Концептуальная модель
Для концептуальной модели важно понимать, что оценки вряд ли будут иметь нормальное распределение (или любое другое легко параметризованное распределение). Это совершенно ясно в опубликованном примере и во всех других примерах из исходного отчета. Эти баллы представляют собой смесь школ; даже если распределение в какой-либо школе было нормальным (они не являются), смесь вряд ли будет нормальной.
Простой подход предполагает наличие истинного распределения баллов: того, о котором сообщалось бы, за исключением этой конкретной формы мошенничества. Следовательно, это непараметрическая настройка. Это кажется слишком широким, но есть некоторые характеристики распределения оценок, которые можно предвидеть или наблюдать в реальных данных:
Подсчеты баллов , и будут тесно связаны, .i−1 i i+1 1≤i≤99
Будут различия в этих показателях вокруг некоторой идеализированной гладкой версии распределения результатов. Эти изменения обычно имеют размер, равный квадратному корню из числа.
Обман по отношению к порогу не повлияет на счет для любой оценки . Его эффект пропорционален подсчету каждого балла (количество учеников, которым «грозит опасность» из-за мошенничества). Для баллов ниже этого порога количество будет уменьшено на некоторую долю и эта сумма будет добавлена к .t i≥t i c(i) δ(t−i)c(i) t(i)
Количество изменений уменьшается с расстоянием между оценкой и порогом: является убывающей функцией .δ(i) i=1,2,…
При заданном пороговом значении нулевая гипотеза (без обмана) состоит в том, что , подразумевая, что тождественно равна . Альтернативой является то, что .t δ(1)=0 δ 0 δ(1)>0
Построение теста
Какую статистику теста использовать? В соответствии с этими допущениями, (а) эффект является аддитивным в подсчетах и (б) наибольший эффект будет иметь место непосредственно за порогом. Это указывает на рассмотрение первых различий в подсчете, . Дальнейшее рассмотрение предлагает сделать еще один шаг вперед: согласно альтернативной гипотезе, мы ожидаем увидеть последовательность постепенно пониженных подсчетов, когда показатель приближается к порогуc′(i)=c(i+1)−c(i) i t t t+1
потому что при это будет сочетать значительное отрицательное снижение с отрицательным значительным положительным увеличением , тем самым усиливая обманный эффект ,i=t−1 c(t+1)−c(t) c(t)−c(t−1)
Я собираюсь предположить - и это можно проверить - что последовательная корреляция отсчетов вблизи порога довольно мала. (Последовательная корреляция в другом месте не имеет значения.) Это означает, что дисперсия приблизительноc′′(t−1)=c(t+1)−2c(t)+c(t−1)
Ранее я предлагал для всех (то, что также можно проверить). Откудаvar(c(i))≈c(i) i
должен приблизительно иметь единичную дисперсию. Для групп с большим количеством баллов (количество публикаций составляет около 20 000), мы также можем ожидать примерно нормальное распределение . Поскольку мы ожидаем, что крайне отрицательное значение указывает на читерскую модель, мы легко получаем тест размера : writing для cdf стандартного нормального распределения, отвергаем гипотезу об отсутствии читерства на пороге когда .c′′(t−1) α Φ t Φ(z)<α
пример
Например, рассмотрим этот набор истинных результатов тестов, составленный из смеси трех нормальных распределений:
К этому я применил расписание мошенничества с порогом определяемым как . Это фокусирует почти все мошенничество на один или два балла сразу ниже 65:t=65 δ(i)=exp(−2i)
Чтобы получить представление о том, что делает тест, я вычислил для каждого результата, а не только для , и вычертил его в соответствии с результатом:z t
(На самом деле, чтобы избежать проблем с маленькими счетами, я сначала добавил 1 к каждому счету от 0 до 100, чтобы вычислить знаменатель .)z
Колебания около 65 очевидны, так же как и тенденция для всех других флуктуаций размером около 1, в соответствии с допущениями этого теста. Статистика теста с соответствующим значением p , что является чрезвычайно значимым результатом. Визуальное сравнение с рисунком в самом вопросе позволяет предположить, что этот тест вернет значение p по меньшей мере столь же маленькимz=−4.19 Φ(z)=0.0000136
(Тем не менее, обратите внимание, что сам тест не использует этот график, который показан для иллюстрации идей. Тест рассматривает только построенное значение на пороге, нигде больше. Тем не менее, было бы хорошей практикой составлять такой график чтобы подтвердить, что тестовая статистика действительно выделяет ожидаемые пороговые значения в качестве локусов мошенничества и что все остальные баллы не подвержены таким изменениям. Здесь мы видим, что во всех других баллах есть колебания между -2 и 2, но редко Обратите также внимание, что на самом деле не нужно вычислять стандартное отклонение значений на этом графике, чтобы вычислить , что позволяет избежать проблем, связанных с мошенническими эффектами, вызывающими колебания в нескольких местах.)z
При применении этого теста к нескольким порогам было бы целесообразно корректировать размер теста по Бонферрони. Хорошей идеей будет также дополнительная настройка при одновременном применении к нескольким тестам.
оценка
Эта процедура не может быть серьезно предложена для использования, пока она не проверена на реальных данных. Хорошим способом было бы взять оценки для одного теста и использовать некритическую оценку для теста в качестве порога. Предположительно такой порог не был подвержен этой форме обмана. Смоделируйте мошенничество в соответствии с этой концептуальной моделью и изучите моделируемое распределение . Это укажет (а), являются ли p-значения точными и (б) мощность теста, чтобы указать имитированную форму обмана. В самом деле, можно использовать такое имитационное исследование на тех данных, которые он оценивает, обеспечивая чрезвычайно эффективный способ проверки того, подходит ли тест и какова его фактическая мощность. Потому что тестовая статистикаz z Это так просто, что моделирование будет практически осуществимо и быстро выполнено.
источник
Я предлагаю подобрать модель, которая явно прогнозирует провалы, а затем показывает, что она значительно лучше соответствует данным, чем наивная.
Вам нужны два компонента:
Одна из возможных моделей для одного порога (значения ): гдеt
Как правило, вы не можете подняться значительно. Я бы заподозрил экспоненциальный спад , где - доля перепроверенных (манипулируемых) баллов.m(s′→t)≈aqt−s′ a
В качестве исходного распределения вы можете попробовать использовать распределение Пуассона или Гаусса. Конечно, в идеале было бы иметь один и тот же тест, но для одной группы учителей предусмотрены пороги, а для другой - нет порогов.
Если порогов больше, то можно применить ту же формулу, но с поправками для каждого . Возможно, будет другим (например, разница между неудачами может быть более важной, чем между двумя проходными баллами).ti ai
Ноты:
источник
Я бы разделил эту проблему на две подзадачи:
Существуют различные способы решения любой из подзадач.
Мне кажется, что распределение Пуассона соответствовало бы данным, если бы они были независимо и идентично распределены (iid) , что, конечно, мы думаем, что это не так. Если мы наивно попытаемся оценить параметры распределения, мы будем отклоняться от выбросов. Два возможных способа преодолеть это - использовать методы робастной регрессии или эвристический метод, такой как перекрестная проверка.
Для выявления выбросов снова есть множество подходов. Простейшим является использование доверительных интервалов из распределения, которое мы установили на этапе 1. Другие методы включают методы начальной загрузки и подходы Монте-Карло.
Хотя это не скажет вам, что в распределении есть «скачок», он покажет вам, есть ли больше выбросов, чем ожидалось для размера выборки.
Более сложный подход заключается в построении различных моделей данных, таких как составные распределения, и использовании какого-либо метода сравнения моделей (AIC / BIC), чтобы определить, какая из моделей лучше всего подходит для данных. Однако, если вы просто ищете «отклонение от ожидаемого распределения», то это выглядит излишним.
источник