Тест на пропорции и двоичный классификатор

10

У меня есть прототип машины, производящей детали.

В первом тесте машина производит деталей, и двоичный классификатор говорит мне, что детали неисправны ( , обычно и ), а детали хороши.d 1 d 1 < N 1 d 1 / N 1 < 0,01 N 110 4 N 1 - d 1N1d1d1<N1d1/N1<0.01N1104N1d1

Затем техник вносит некоторые изменения в машину, чтобы уменьшить количество дефектных деталей.

Во втором и последующем тесте модифицированная машина производит детали, и тот же двоичный классификатор (нетронутый) говорит мне, что детали неисправны, в любом случае очень похож на .d 2 d 2 / N 2 d 1 / N 1N2d2d2/N2d1/N1

Техник хотел бы знать, эффективны ли его изменения.

Предполагая, что классификаторы идеальны (его чувствительность составляет 100%, а его специфичность составляет 100%), я могу выполнить тест на пропорции (с R, я просто набираю prop.test(c(d1,d2),c(N1,N2))).

Но классификатор не идеален, так как я могу принять во внимание чувствительность и специфичность, неизвестную, классификатора, чтобы правильно ответить технику?

Алессандро Якопсон
источник
Можете ли вы подтвердить степень точности классификатора?
Мишель
@Michelle Я знаю без ошибок и но я не знаю, сколько дефектных деталей неправильно классифицируется как хорошее. д 2d1d2
Алессандро Якопсон
Привет еще раз. Можете ли вы сделать случайную выборку хороших частей из N1 и N2 отдельно, чтобы оценить ложноположительный показатель?
Мишель
1
С этой информацией, можете ли вы использовать этот метод для сравнения изменений? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract также см. здесь ncbi.nlm.nih.gov/pubmed/18224558 и другие идеи, полный текст: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf
Мишель
2
(+1) это отличный вопрос!
Штеффен

Ответы:

4

Так что я извлекаю это из первых принципов, и поэтому не уверен, что это правильно. Вот мои мысли:

РЕДАКТИРОВАТЬ: Это было не совсем правильно раньше. Я обновил это.

  1. Пусть обозначает ожидаемую разницу между фактическим числом истинных положительных значений d 1 и числом, выводимым двоичным классификатором, который мы назовем ^ d 1 . Вы можете измерить это, запустив свой классификатор на наборе с известными метками. Вычтите количество фактических позитивов из числа позитивов, произведенных классификатором, а затем разделите на N, чтобы получить α .αd1d1^Nα

  2. Итак, точечная оценка для фактического соотношения дефектных частей дается: . То есть наблюдаемое количество дефектных деталей, за вычетом ожидаемого количества ложных срабатываний плюс ожидаемое количество ложных срабатываний.d1N1^=d1+αN1N1

  3. Точно так же, d2N2^=d2+αN2N2

  4. Итак, теперь давайте сделаем тест на опору. В стандартном тесте пропеллера мы сначала вычисляем объединенное отношение, используемое как нулевое значение: . Итак, здесь мы помещаем в наши точечные оценки ^ d 1p=p1N1+p2N2N1+N2 и^d2d1N1^ чтобы получить:p=d1+d2+α(N1+N2)d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. И тогда стандартная ошибка просто обычная: p(1p)(1N1+1N2)

  6. И статистика теста такая же: z=d1N1d2N2se

Несколько мыслей о толковании:

  • p<0

  • Другой способ думать об этом заключается в том, что, если количество дефектных деталей находится в пределах погрешности для классификатора, то, конечно, мы не можем сказать, есть ли разница: мы даже не можем сказать, являются ли какие-либо детали дефектными!

α

  • αα

h

  • h2ααh2lowl,lowr)(highl,highr)α(highl,lowr) (который содержит оба более ранних интервала) должен быть (1-h) * 100% CI для разницы в пропорциях ... Я думаю ...

α

Джон Дусетт
источник
+1, спасибо. В 6 вы написали «статические», вы имели в виду «статистика»?
Алессандро Якопсон
p<00<p<10<p<1
0.01(N1d1)100β=7100ββprop.test(7,100)
@uvts_cvs Да, это должно быть "статистика". Я исправлю это через мгновение. Существует также опечатка в расчете для стандартной ошибки, которая должна быть p * (1-p). P всегда должно быть <1, за исключением, может быть, если ваш классификатор действительно плохой, а d большое. Для вашего третьего комментария, да, это идея. Я просто не уверен, как включить эту оценку в модель. Возможно, кто-то еще здесь знает?
Джон Дусетт
αβ