ВОПРОС:
У меня есть двоичные данные по экзаменационным вопросам (правильно / неправильно). Некоторые люди могли иметь предварительный доступ к подмножеству вопросов и их правильных ответов. Я не знаю кто, сколько или какой. Если бы обмана не было, предположим, что я бы смоделировал вероятность правильного ответа для элемента как , где представляет сложность вопроса, а - скрытую способность индивидуума. Это очень простая модель ответа элемента, которую можно оценить с помощью таких функций, как ltm rasch () в R. В дополнение к оценкам (где индексирует отдельных лиц) скрытой переменной, у меня есть доступ к отдельным оценкамл о г я т ( ( р я = 1 | г ) ) = & beta ; я + г β я г г J J Q J той же скрытой переменной, которая была получена из другого набора данных, в котором обман был невозможен.
Цель состоит в том, чтобы идентифицировать людей, которые, вероятно, обманули и предметы, которые они обманули. Какие подходы вы можете использовать? В дополнение к необработанным данным доступны , и \ hat {q} _j , хотя первые два будут иметь некоторую погрешность из-за мошенничества. В идеале решение должно быть в форме вероятностной кластеризации / классификации, хотя в этом нет необходимости. Практические идеи приветствуются, как и формальные подходы. г J д J
До сих пор я сравнивал соотношение вопросов и ответов для пар лиц с более высокими или низкими показателями (где - это грубый показатель вероятности того, что их обманули). Например, я отсортировал людей по а затем построил график корреляции последовательных пар вопросов участников. Я также попытался построить среднюю корреляцию оценок для людей, чьи значения были больше, чем квантиль для в зависимости от . Нет очевидных моделей для любого подхода.
ОБНОВИТЬ:
Я закончил тем, что соединил идеи из @SheldonCooper и полезной статьи Freakonomics, на которую @whuber указал мне. Другие идеи / комментарии / критика приветствуются.
Пусть будет двоичным счетом лица по вопросу . Оцените logit модели ответа на предмет (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j,
Вероятность наблюдаемой оценки , обусловленной легкостью предмета и способностями человека, можно записать в виде где - прогнозируемая вероятность правильный ответ, и - обратный логит. Тогда, в зависимости от характеристик предмета и человека, общая вероятность того, что человек имеет наблюдения равна и, аналогично, общая вероятность того, что элемент имеет наблюдения p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xPij( ^ β i , ^
Дополнительный шаг, который я попробовал, состоит в том, чтобы взять r% наименее вероятных людей (то есть людей с наименьшим r% от отсортированных значений p_j), вычислить среднее расстояние между их наблюдаемыми показателями x_j (которое должно быть коррелировано для лиц с низким r, которые возможные мошенники), и нанесите его на график для r = 0,001, 0,002, ..., 1000. Среднее расстояние увеличивается при r = 0,001 до r = 0,025, достигает максимума, а затем медленно уменьшается до минимума при r = 1. Не совсем то, на что я надеялся.
источник
Ответы:
Специальный подход
Я бы предположил, что достаточно надежен, потому что его оценили многие студенты, большинство из которых не изменяли вопросу . Для каждого ученика вопросы в порядке возрастания сложности, вычислите (обратите внимание, что i j β i + q j q jβя я J βя+ qJ QJ это просто постоянное смещение) и порог его в некотором разумном месте (например, р (правильно) <0,6). Это дает набор вопросов, на которые ученик вряд ли ответит правильно. Теперь вы можете использовать проверку гипотез, чтобы увидеть, нарушено ли это, и в этом случае студент, вероятно, обманул (если, конечно, ваша модель верна). Одно предостережение: если таких вопросов мало, у вас может не хватить данных, чтобы тест был надежным. Кроме того, я не думаю, что возможно определить, какой вопрос он обманул, потому что у него всегда есть 50% -ый шанс угадать. Но если вы дополнительно предположите, что многие учащиеся получили доступ (и обманули) к одному и тому же набору вопросов, вы можете сравнить их между учащимися и увидеть, на какие вопросы отвечали чаще, чем случайно.
Вы можете сделать аналогичный трюк с вопросами. Т.е. для каждого вопроса отсортируйте студентов по , добавьте (теперь это постоянное смещение) и порог с вероятностью 0,6. Это дает вам список студентов, которые не смогут правильно ответить на этот вопрос. Так что у них есть 60% шанс угадать. Опять же, сделайте проверку гипотез и посмотрите, не нарушено ли это. Это работает только в том случае, если большинство студентов обманули один и тот же набор вопросов (например, если часть вопросов «просочилась» до экзамена).β iQJ βя
Принципиальный подход
Для каждого учащегося существует двоичная переменная с предшествующим Бернулли с некоторой подходящей вероятностью, указывающая, является ли ученик мошенником. Для каждого вопроса есть двоичная переменная , опять же с некоторым подходящим предварительным значением Бернулли, указывающим, был ли вопрос утечкой. Затем есть набор двоичных переменных , указывающих, правильно ли ученик ответил на вопрос . Если и , то распределением является Бернулли с вероятностью 0,99. В противном случае дистрибутив является . Эти являются наблюдаемыми переменными.l i a i j j i c j = 1 l i = 1 a i j l o g i t ( β i + q j ) a i j c j l iсJ Lя aя ж J я сJ= 1 Lя= 1 aя ж л огя т ( βя+ qJ) aя ж сJ и скрыты и должны быть выведены. Вы, вероятно, можете сделать это путем выборки Гиббса. Но возможны и другие подходы, возможно, что-то, связанное с бикластеризацией.Lя
источник
Если вы хотите использовать более сложные подходы, вы можете взглянуть на модели теории отклика элемента. Затем вы можете смоделировать сложность каждого вопроса. Я думаю, что учащиеся, которые исправляли трудные предметы, но упускали более простые, с большей вероятностью будут обманывать, чем те, кто поступил наоборот.
Прошло уже более десяти лет с тех пор, как я делал подобные вещи, но я думаю, что это может быть многообещающим. Для более подробной информации, проверить психометрические книги
источник