Сравнение двух результатов точности классификатора для статистической значимости с t-тестом

17

Я хочу сравнить точность двух классификаторов по статистической значимости. Оба классификатора работают на одном наборе данных. Это наводит меня на мысль, что я должен использовать один образец t-критерия из того, что я читал .

Например:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Это правильный тест для использования? Если да, то как рассчитать, является ли разница в точности между классификаторами?

Или я должен использовать другой тест?

Крис
источник

Ответы:

14

Я бы, наверное, выбрал тест МакНемара, если бы вы тренировали классификаторы только один раз. Дэвид Барбер также предлагает довольно аккуратный байесовский тест, который кажется мне довольно элегантным, но не широко используется (он также упоминается в его книге ).

Просто добавьте, как говорит Питер Флом, ответ почти наверняка «да», просто взглянув на разницу в производительности и размере выборки (я беру в расчет цифры, приведенные для оценки производительности тестового набора, а не тренировочного набора).

Кстати, у Жапковича и Шаха недавно вышла книга «Оценка алгоритмов обучения: перспектива классификации» , я ее не читал, но она выглядит как полезный справочник для подобных проблем.

Дикран Сумчатый
источник
1
Я выполняю 10-кратную перекрестную проверку, чтобы получить эти результаты. Означает ли это, что они на самом деле разные наборы данных. Это общий размер, который разделен для теста / поезда в перекрестной проверке
Крис
4
Точность для каждого сгиба не будет независимой, что нарушит допущения большинства статистических тестов, но, вероятно, не будет большой проблемой. Я часто использую 100 случайных тренировок / тестовых сплитов, а затем использую парный тест ранкоса Уилкоксона (используйте одинаковые случайные сплиты для обоих классификаторов). Я предпочитаю такого рода тесты, так как я часто использую небольшие наборы данных (так как меня интересует переоснащение), поэтому вариативность между случайными разбиениями имеет тенденцию быть сопоставимой с разницей в производительности между классификаторами.
Дикран Marsupial
2
(+1) для парного рангового теста Уилкоксона (и ссылки на книгу ... если ток может выполнить свои обещания, эта книга может стать обязательной для прочтения всех ML: O)
steffen
3
Я также использовал знаковые ранговые тесты, а также парные t-тесты для сравнения классификаторов. Однако каждый раз, когда я сообщаю об использовании одностороннего теста для этой цели, мне трудно получить рецензенты, поэтому я перешел к использованию двусторонних тестов!
BGreene
2
Учитывая, что OP пояснил в комментариях, что вопрос на самом деле касался перекрестной проверки, рассмотрите, возможно, вы бы расширили свой ответ, чтобы охватить эту тему? Мы можем редактировать Q тогда. Это важная тема, и есть пара очень связанных (или даже дублирующих) вопросов, но ни один из них не имеет хорошего ответа. В вышеприведенном комментарии вы рекомендуете использовать парный тест для оценок CV и говорите, что не думаете, что отсутствие независимости является большой проблемой здесь. Почему нет? Это звучит как потенциально серьезная проблема!
говорит амеба: восстанови Монику
4

Я могу сказать вам, даже не предпринимая никаких действий, что разница будет очень статистически значимой. Он проходит IOTT (тест на межглазную травму - он ударяет вас между глазами).

Если вы хотите провести тест, вы можете сделать это как тест двух пропорций - это можно сделать с помощью t-теста с двумя образцами.

Возможно, вы захотите разбить «точность» на составляющие; чувствительность и специфичность или ложноположительные и ложноотрицательные. Во многих приложениях стоимость разных ошибок совершенно разная.

Питер Флом - Восстановить Монику
источник
Договорились - это явно будет значительным. Nitpick: вы бы использовали тест для проверки двух пропорций (приблизительно) - это связано с сходимостью биномиального распределения к нормали при увеличении n . См. Раздел 5.2 en.wikipedia.org/wiki/Statistical_hypothesis_testingzn
Макрос,
Во-вторых, тест может все еще быть асимптотически действительным, CLT, но должна быть причина, по которой z- тест обычно используется здесь. tz
Макрос
2
Процент точности, который я указал в своем вопросе, является лишь примером.
Крис
0

Поскольку в данном случае точность - это доля правильно классифицированных выборок, мы можем применить проверку гипотезы о системе двух пропорций.

Пусть р 1 и р 2 быть точность , полученные из классификаторов 1 и 2 соответственно, а п будет число выборок. Количество выборок, правильно классифицированных в классификаторах 1 и 2, равно x 1 и x 2 соответственно.p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

Статистика теста определяется

Z=p^1p^22p^(1p^)/n где p^=(x1+x2)/2n

Мы намерены доказать, что общая точность классификатора 2, т. Е. , лучше точности классификатора 1, то есть p 1 . Это создает нашу гипотезу какp2p1

  • H0:p1=p2 (нулевая гипотеза о том, что оба равны)
  • Ha:p1<p2 (альтернативная гипотеза, утверждающая, что более новая гипотеза лучше существующей)

Область отклонения определяется как

Z<zα(если истина отклонить и принять H a )H0Ha

где получается из стандартного нормального распределения, которое относится к уровню значимости, α . Например, z 0,5 = 1,645 для уровня значимости 5%. Это означает, что если соотношение Z < - 1,645 истинно, то мы можем сказать с 95% уровнем достоверности ( 1 - α ), что классификатор 2 является более точным, чем классификатор 1.zααz0.5=1.645Z<1.6451α

Ссылки:

  1. Р. Джонсон и Дж. Фрейнд, Вероятность и статистика Миллера и Фрейнда для инженеров, 8-е изд. Prentice Hall International, 2011. (первоисточник)
  2. Проверка гипотезы-краткой формулы Резюме . (Принято из [1])
Эбе Исаак
источник
не должны p^p^1p^2p^=(x1+x2)/2n
Хотя я согласен с тем, что можно использовать тест на пропорции, в первоначальном вопросе нет ничего, что предполагало бы, что односторонний тест является подходящим. Более того, «мы можем сказать с уверенностью в 95%» - это распространенное заблуждение. Смотрите, например, здесь: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Франс Роденбург,
@ShivaTp Действительно. Спасибо за указание на столь необходимую коррекцию опечатки. Редактирование подтверждено.
Ébe Исаак