Я хочу сравнить точность двух классификаторов по статистической значимости. Оба классификатора работают на одном наборе данных. Это наводит меня на мысль, что я должен использовать один образец t-критерия из того, что я читал .
Например:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
Это правильный тест для использования? Если да, то как рассчитать, является ли разница в точности между классификаторами?
Или я должен использовать другой тест?
Я могу сказать вам, даже не предпринимая никаких действий, что разница будет очень статистически значимой. Он проходит IOTT (тест на межглазную травму - он ударяет вас между глазами).
Если вы хотите провести тест, вы можете сделать это как тест двух пропорций - это можно сделать с помощью t-теста с двумя образцами.
Возможно, вы захотите разбить «точность» на составляющие; чувствительность и специфичность или ложноположительные и ложноотрицательные. Во многих приложениях стоимость разных ошибок совершенно разная.
источник
Поскольку в данном случае точность - это доля правильно классифицированных выборок, мы можем применить проверку гипотезы о системе двух пропорций.
Пусть р 1 и р 2 быть точность , полученные из классификаторов 1 и 2 соответственно, а п будет число выборок. Количество выборок, правильно классифицированных в классификаторах 1 и 2, равно x 1 и x 2 соответственно.p^1 p^2 n x1 x2
Статистика теста определяется
Мы намерены доказать, что общая точность классификатора 2, т. Е. , лучше точности классификатора 1, то есть p 1 . Это создает нашу гипотезу какp2 p1
Область отклонения определяется как
где получается из стандартного нормального распределения, которое относится к уровню значимости, α . Например, z 0,5 = 1,645 для уровня значимости 5%. Это означает, что если соотношение Z < - 1,645 истинно, то мы можем сказать с 95% уровнем достоверности ( 1 - α ), что классификатор 2 является более точным, чем классификатор 1.zα α z0.5=1.645 Z<−1.645 1−α
Ссылки:
источник