Как формально проверить «разрыв» в нормальном (или другом) распределении

10

В социальной науке часто возникает мысль о том, что переменные, которые должны быть распределены каким-либо образом, скажем, нормально, в конечном итоге имеют разрыв в распределении вокруг определенных точек.

Например, если существуют определенные ограничения, такие как «прохождение / отказ» и если эти меры подвержены искажениям, в этой точке может быть разрыв.

Одним из ярких примеров (приведенных ниже) является то, что результаты стандартных тестов учащихся обычно распределяются в основном везде, за исключением 60%, где очень мало массы от 50-60% и избыточной массы около 60-65%. Это происходит в тех случаях, когда учителя оценивают своих учеников на экзамены. Авторы выясняют, действительно ли учителя помогают ученикам сдать экзамены.

Самым убедительным доказательством без сомнения являются показы графиков кривой колокола с большим разрывом вокруг разных пределов для разных тестов. Тем не менее, как бы вы пошли о разработке статистического теста? Они попытались интерполировать и затем сравнить дробь выше или ниже, а также t-критерий для дроби на 5 баллов выше и ниже порога отсечки. В то время как разумно, они являются специальными. Кто-нибудь может придумать что-нибудь лучше?

Ссылка: правила и конфиденциальность в оценке учащихся и школ: пример экзаменов в Нью-Йоркских регентах http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Распределение тестовых баллов, манипулятивных в черном, обратите внимание на резкое падение плотности ниже порога и соответствующий рост выше

normal-distribution pdf d_a_c321
источник

Просто чтобы уточнить - вы тестируете на общее отсутствие, например, нормальности, или на наличие разрыва в заранее заданной точке? Ваш пример относится к последнему, но, конечно, подойдет любой критерий соответствия, например, Андерсон-Дарлинг или Шапиро-Уилк для нормальности, хотя с очень специфической альтернативой вы могли бы построить более мощные тесты. Кроме того, на графике выше вы, очевидно, имеете выборку из тысяч; это тоже будет типично?

jbowman

6

Важно правильно сформулировать вопрос и принять полезную концептуальную модель оценки.

Вопрос

Потенциальные пороги мошенничества, такие как 55, 65 и 85, известны априори независимо от данных: их не нужно определять из данных. (Следовательно, это не является проблемой обнаружения выбросов или проблемой подгонки распределения.) Тест должен оценить свидетельство того, что некоторые (не все) оценки, чуть меньшие, чем эти пороговые значения, были перемещены к этим пороговым значениям (или, возможно, только выше этих пороговых значений).

Концептуальная модель

Для концептуальной модели важно понимать, что оценки вряд ли будут иметь нормальное распределение (или любое другое легко параметризованное распределение). Это совершенно ясно в опубликованном примере и во всех других примерах из исходного отчета. Эти баллы представляют собой смесь школ; даже если распределение в какой-либо школе было нормальным (они не являются), смесь вряд ли будет нормальной.

Простой подход предполагает наличие истинного распределения баллов: того, о котором сообщалось бы, за исключением этой конкретной формы мошенничества. Следовательно, это непараметрическая настройка. Это кажется слишком широким, но есть некоторые характеристики распределения оценок, которые можно предвидеть или наблюдать в реальных данных:

Подсчеты баллов , и будут тесно связаны, . $i-1$ $i$ $i+1$ $1 \le i \le 99$
Будут различия в этих показателях вокруг некоторой идеализированной гладкой версии распределения результатов. Эти изменения обычно имеют размер, равный квадратному корню из числа.
Обман по отношению к порогу не повлияет на счет для любой оценки . Его эффект пропорционален подсчету каждого балла (количество учеников, которым «грозит опасность» из-за мошенничества). Для баллов ниже этого порога количество будет уменьшено на некоторую долю и эта сумма будет добавлена к . $t$ $i\ge t$ $i$ $c(i)$ $\delta(t-i)c(i)$ $t(i)$
Количество изменений уменьшается с расстоянием между оценкой и порогом: является убывающей функцией . $\delta(i)$ $i=1,2,\ldots$

При заданном пороговом значении нулевая гипотеза (без обмана) состоит в том, что , подразумевая, что тождественно равна . Альтернативой является то, что . $t$ $\delta(1)=0$ $\delta$ $0$ $\delta(1)\gt 0$

Построение теста

Какую статистику теста использовать? В соответствии с этими допущениями, (а) эффект является аддитивным в подсчетах и (б) наибольший эффект будет иметь место непосредственно за порогом. Это указывает на рассмотрение первых различий в подсчете, . Дальнейшее рассмотрение предлагает сделать еще один шаг вперед: согласно альтернативной гипотезе, мы ожидаем увидеть последовательность постепенно пониженных подсчетов, когда показатель приближается к порогу $c'(i) = c(i+1)-c(i)$ $i$ $t$ $t$ $t+1$

c^{″} (i) = c^{'} (i + 1) - c^{'} (i) = c (i + 2) - 2 c (i + 1) + c (i),

$c''(i) = c'(i+1) - c'(i) = c(i+2) - 2c(i+1) + c(i),$

потому что при это будет сочетать значительное отрицательное снижение с отрицательным значительным положительным увеличением , тем самым усиливая обманный эффект , $i = t-1$ $c(t+1)-c(t)$ $c(t) - c(t-1)$

Я собираюсь предположить - и это можно проверить - что последовательная корреляция отсчетов вблизи порога довольно мала. (Последовательная корреляция в другом месте не имеет значения.) Это означает, что дисперсия приблизительно $c''(t-1) = c(t+1) - 2c(t) + c(t-1)$

var (c^{″} (t - 1)) \approx var (c (t + 1)) + (- 2)^{2} var (c (t)) + var (c (t - 1)) .

$\text{var}(c''(t-1)) \approx \text{var}(c(t+1)) + (-2)^2\text{var}(c(t)) + \text{var}(c(t-1)).$

Ранее я предлагал для всех (то, что также можно проверить). Откуда $\text{var}(c(i)) \approx c(i)$ $i$

z = c^{″} (t - 1) / \sqrt{c (t + 1) + 4 c (t) + c (t - 1)}

$z = c''(t-1) / \sqrt{c(t+1) + 4c(t) + c(t-1)}$

должен приблизительно иметь единичную дисперсию. Для групп с большим количеством баллов (количество публикаций составляет около 20 000), мы также можем ожидать примерно нормальное распределение . Поскольку мы ожидаем, что крайне отрицательное значение указывает на читерскую модель, мы легко получаем тест размера : writing для cdf стандартного нормального распределения, отвергаем гипотезу об отсутствии читерства на пороге когда . $c''(t-1)$ $\alpha$ $\Phi$ $t$ $\Phi(z) \lt \alpha$

пример

Например, рассмотрим этот набор истинных результатов тестов, составленный из смеси трех нормальных распределений:

Гистограмма истинных результатов

К этому я применил расписание мошенничества с порогом определяемым как . Это фокусирует почти все мошенничество на один или два балла сразу ниже 65: $t=65$ $\delta(i) = \exp(-2 i)$

Гистограмма баллов после обмана

Чтобы получить представление о том, что делает тест, я вычислил для каждого результата, а не только для , и вычертил его в соответствии с результатом: $z$ $t$

Участок Z

(На самом деле, чтобы избежать проблем с маленькими счетами, я сначала добавил 1 к каждому счету от 0 до 100, чтобы вычислить знаменатель .) $z$

Колебания около 65 очевидны, так же как и тенденция для всех других флуктуаций размером около 1, в соответствии с допущениями этого теста. Статистика теста с соответствующим значением p , что является чрезвычайно значимым результатом. Визуальное сравнение с рисунком в самом вопросе позволяет предположить, что этот тест вернет значение p по меньшей мере столь же маленьким $z = -4.19$ $\Phi(z) = 0.0000136$

(Тем не менее, обратите внимание, что сам тест не использует этот график, который показан для иллюстрации идей. Тест рассматривает только построенное значение на пороге, нигде больше. Тем не менее, было бы хорошей практикой составлять такой график чтобы подтвердить, что тестовая статистика действительно выделяет ожидаемые пороговые значения в качестве локусов мошенничества и что все остальные баллы не подвержены таким изменениям. Здесь мы видим, что во всех других баллах есть колебания между -2 и 2, но редко Обратите также внимание, что на самом деле не нужно вычислять стандартное отклонение значений на этом графике, чтобы вычислить , что позволяет избежать проблем, связанных с мошенническими эффектами, вызывающими колебания в нескольких местах.) $z$

При применении этого теста к нескольким порогам было бы целесообразно корректировать размер теста по Бонферрони. Хорошей идеей будет также дополнительная настройка при одновременном применении к нескольким тестам.

оценка

Эта процедура не может быть серьезно предложена для использования, пока она не проверена на реальных данных. Хорошим способом было бы взять оценки для одного теста и использовать некритическую оценку для теста в качестве порога. Предположительно такой порог не был подвержен этой форме обмана. Смоделируйте мошенничество в соответствии с этой концептуальной моделью и изучите моделируемое распределение . Это укажет (а), являются ли p-значения точными и (б) мощность теста, чтобы указать имитированную форму обмана. В самом деле, можно использовать такое имитационное исследование на тех данных, которые он оценивает, обеспечивая чрезвычайно эффективный способ проверки того, подходит ли тест и какова его фактическая мощность. Потому что тестовая статистика $z$ $z$ Это так просто, что моделирование будет практически осуществимо и быстро выполнено.

Whuber
источник

Этот тест необходимо немного скорректировать, потому что ожидание (приблизительно) пропорционально второй производной от распределения. В примере, где порог близок к моде, эта вторая производная близка к нулю, поэтому проблем нет, но для порога в области высокой кривизны (около 70 или 90 в смоделированных данных) корректировка может быть существенной. Если я получу шанс, я отредактирую этот ответ соответственно.

z

$z$

uuber

1

Я предлагаю подобрать модель, которая явно прогнозирует провалы, а затем показывает, что она значительно лучше соответствует данным, чем наивная.

Вам нужны два компонента:

начальное распределение баллов,
процедура перепроверки (честной или нет) оценок, когда кто-то подходит ниже порога.

Одна из возможных моделей для одного порога (значения ): где $t$

p_{f i n a l} (s) = p_{i n i t i a l} (s) - p_{i n i t i a l} (s) m (s \to t) + δ (s = t) \sum_{s^{'} = 0}^{t - 1} p_{i n i t i a l} (s^{'}) m (s^{'} \to t),

$p_{final}(s) = p_{initial}(s) - p_{initial}(s)m(s\rightarrow t)+ \delta(s=t)\sum_{s'=0}^{t-1}p_{initial}(s')m(s'\rightarrow t),$

$p_{final}(s)$ - распределение вероятностей итоговой оценки,
$p_{initial}(s)$ - распределение вероятностей, если не было порогов,
$m(s'\rightarrow t)$ - вероятность манипулирования баллом при прохождении балла , $s'$ $t$
$\delta(s=t)$ является дельтой Кронекера, т. е. 1, если и 0 в противном случае. $s=t$

Как правило, вы не можете подняться значительно. Я бы заподозрил экспоненциальный спад , где - доля перепроверенных (манипулируемых) баллов. $m(s'\rightarrow t)\approx a q^{t-s'}$ $a$

В качестве исходного распределения вы можете попробовать использовать распределение Пуассона или Гаусса. Конечно, в идеале было бы иметь один и тот же тест, но для одной группы учителей предусмотрены пороги, а для другой - нет порогов.

Если порогов больше, то можно применить ту же формулу, но с поправками для каждого . Возможно, будет другим (например, разница между неудачами может быть более важной, чем между двумя проходными баллами). $t_i$ $a_i$

Ноты:

Иногда существуют процедуры перепроверки тестов, если есть чуть ниже проходного балла. Тогда сложнее сказать, какие случаи были честными, а какие - нет.
$m(s\rightarrow t)$ , безусловно, будет зависеть от типа теста. Например, если есть открытые вопросы, то некоторые ответы могут быть неоднозначными, и их количество зависит от (поэтому при низком балле может быть легче поднять оценку). Принимая во внимание, что для теста с закрытым выбором не должно быть различий в количестве правильных и неправильных ответов. $s$
Иногда «исправленные» баллы могут быть выше - вместо идеализированного можно указать другое. $t$ $\delta(s=t)$

Петр Мигдаль
источник

Я не уверен, что отвечает на мой точный вопрос. В этом случае у нас нет возможности перепроверить какие-либо экзамены. Все, что наблюдается, это распределение итоговых баллов. Распределение в основном нормальное. За исключением того, что в некоторой точке отсечения, где мы подозреваем манипуляцию, в нормальной кривой есть разрыв. Если нулевым является то, что кривая будет «гладкой» в этой точке, как мы можем проверить ее на альтернативной гипотезе, где она «

неровная

Я думаю, что занижаю вопрос. Моя точка зрения заключалась в том, чтобы: подобрать гауссову (2 параметра) и вычислить , затем подобрать (2 параметра для параметров Гаусса + (t + 1) для порогов) и вычислить его . Вычисление гладкости (например, в виде ) может быть интересным, но тогда важно проверить основные предположения и т. Д. ( например, для тестов с большим количеством вопросов о 2 баллах может быть довольно высокая «начальная неровность»). Если у кого-то есть доступ к необработанным данным (т. Е. Ко всем ответам, а не только к общим оценкам), тогда есть еще больше возможностей для тестирования ...

X^{2}

$X^2$

p_{f i n a l}

$p_{final}$

X^{2}

$X^2$

\sum_{s = 0}^{99} | p (s + 1) - p (s) |^{2}

$\sum_{s=0}^{99}|p(s+1)-p(s)|^2$

Петр Мигдаль

1

Я бы разделил эту проблему на две подзадачи:

Оцените параметры распределения, чтобы соответствовать данным
Выполнить обнаружение выбросов с использованием встроенного распределения

Существуют различные способы решения любой из подзадач.

Мне кажется, что распределение Пуассона соответствовало бы данным, если бы они были независимо и идентично распределены (iid) , что, конечно, мы думаем, что это не так. Если мы наивно попытаемся оценить параметры распределения, мы будем отклоняться от выбросов. Два возможных способа преодолеть это - использовать методы робастной регрессии или эвристический метод, такой как перекрестная проверка.

Для выявления выбросов снова есть множество подходов. Простейшим является использование доверительных интервалов из распределения, которое мы установили на этапе 1. Другие методы включают методы начальной загрузки и подходы Монте-Карло.

Хотя это не скажет вам, что в распределении есть «скачок», он покажет вам, есть ли больше выбросов, чем ожидалось для размера выборки.

Более сложный подход заключается в построении различных моделей данных, таких как составные распределения, и использовании какого-либо метода сравнения моделей (AIC / BIC), чтобы определить, какая из моделей лучше всего подходит для данных. Однако, если вы просто ищете «отклонение от ожидаемого распределения», то это выглядит излишним.

TDC
источник