У меня есть прототип машины, производящей детали.
В первом тесте машина производит деталей, и двоичный классификатор говорит мне, что детали неисправны ( , обычно и ), а детали хороши.d 1 d 1 < N 1 d 1 / N 1 < 0,01 N 1 ≈ 10 4 N 1 - d 1
Затем техник вносит некоторые изменения в машину, чтобы уменьшить количество дефектных деталей.
Во втором и последующем тесте модифицированная машина производит детали, и тот же двоичный классификатор (нетронутый) говорит мне, что детали неисправны, в любом случае очень похож на .d 2 d 2 / N 2 d 1 / N 1
Техник хотел бы знать, эффективны ли его изменения.
Предполагая, что классификаторы идеальны (его чувствительность составляет 100%, а его специфичность составляет 100%), я могу выполнить тест на пропорции (с R, я просто набираю prop.test(c(d1,d2),c(N1,N2))
).
Но классификатор не идеален, так как я могу принять во внимание чувствительность и специфичность, неизвестную, классификатора, чтобы правильно ответить технику?
источник
Ответы:
Так что я извлекаю это из первых принципов, и поэтому не уверен, что это правильно. Вот мои мысли:
РЕДАКТИРОВАТЬ: Это было не совсем правильно раньше. Я обновил это.
Пусть обозначает ожидаемую разницу между фактическим числом истинных положительных значений d 1 и числом, выводимым двоичным классификатором, который мы назовем ^ d 1 . Вы можете измерить это, запустив свой классификатор на наборе с известными метками. Вычтите количество фактических позитивов из числа позитивов, произведенных классификатором, а затем разделите на N, чтобы получить α .α d1 d1^ N α
Итак, точечная оценка для фактического соотношения дефектных частей дается: . То есть наблюдаемое количество дефектных деталей, за вычетом ожидаемого количества ложных срабатываний плюс ожидаемое количество ложных срабатываний.d1N1^= д1+ α ∗ N1N1
Точно так же,d2N2^= д2+ α ∗ N2N2
Итак, теперь давайте сделаем тест на опору. В стандартном тесте пропеллера мы сначала вычисляем объединенное отношение, используемое как нулевое значение: . Итак, здесь мы помещаем в наши точечные оценки ^ d 1р = р1∗ N1+ р2∗ N2N1+ N2 и^d2d1N1^ чтобы получить:p=d1+d2+α∗(N1+N2)d2N2^ р = д1+ д2+ α ∗ ( N1+ N2)N1+ N2
И тогда стандартная ошибка просто обычная:p ∗ ( 1 - p ) ∗ ( 1N1+ 1N2)------------------√
И статистика теста такая же:Z= д1N1- г2N2с е
Несколько мыслей о толковании:
Другой способ думать об этом заключается в том, что, если количество дефектных деталей находится в пределах погрешности для классификатора, то, конечно, мы не можем сказать, есть ли разница: мы даже не можем сказать, являются ли какие-либо детали дефектными!
источник
prop.test(7,100)