Как правильно проверить значимость результатов классификации

21

Есть много ситуаций, когда вы можете обучить несколько разных классификаторов или использовать несколько разных методов извлечения признаков. В литературе авторы часто приводят среднюю ошибку классификации по набору случайных разбиений данных (т. Е. После дважды вложенной перекрестной проверки), а иногда также дают отклонения по ошибке по разбиениям. Однако одного этого недостаточно, чтобы сказать, что один классификатор значительно лучше другого. Я видел много разных подходов к этому - с использованием критерия хи-квадрат, t-критерия, ANOVA с последующим тестированием и т. Д.

Какой метод следует использовать для определения статистической значимости? В основе этого вопроса лежит вопрос: какие предположения мы должны сделать в отношении распределения результатов классификации?

TDC
источник
2
Не могли бы вы опубликовать примеры статей со словами: «Я видел много разных подходов к этому - использование критерия хи-квадрат, t-критерий, ANOVA с последующим тестированием и т. Д.»? Я действительно заинтересован в этом.
JB.
1
@jb взгляните на это: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf
Дов

Ответы:

9

В дополнение к отличному ответу @ jb. Позвольте мне добавить, что вы можете использовать тест МакНемара на том же наборе тестов, чтобы определить, значительно ли один классификатор лучше другого. Это будет работать только для задач классификации (то, что оригинальная работа Макнемара называла «дихотомической чертой»), означая, что классификаторы или понимают это правильно или неправильно, без пробела в середине.

carlosdc
источник
Как насчет сценария, когда классификатор может пройти? Как в нем сказано, он не знает. Можете ли вы тогда использовать тест МакНемара?
S0rin
5

Поскольку распределение ошибок классификации является бинарным распределением (либо есть неправильная классификация, либо ее нет) - я бы сказал, что использование хи-квадрат не имеет смысла.

Также целесообразно сравнивать только эффективность классификаторов, которые работают с одними и теми же наборами данных. «Теорема о бесплатном обеде отсутствует» гласит, что все модели имеют одинаковую среднюю эффективность по всем наборам данных, поэтому то, какая модель будет выглядеть лучше, будет зависеть только от того, какие наборы данных были выбран для обучения их http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Если вы сравниваете эффективность моделей A и B с набором данных D, я думаю, что средняя эффективность + среднее достаточно для выбора.

Более того, если у вас есть много моделей, которые имеют резонирующую эффективность (и являются линейно независимыми друг от друга), я бы скорее построил модель ансамбля, чем просто выбрал лучшую модель.

ДБ.
источник
Но для одного классификатора вы получите набор баллов (например, MSE более 100 сплитов), который может быть в диапазоне [0,1], например. Я думаю, что было бы слишком дорого брать результаты каждого прогона и анализировать их.
TDC
Да. Но в этом случае среднее + стандартное отклонение достаточно, чтобы проверить, является ли одно значительно лучше другого, как и при любом другом измерении.
JB.
2
Я не совсем уверен. Среднее значение & stddev предполагает гауссовость для начала, а во-вторых, это не учитывает, сколько сравнений делается (например, может потребоваться коррекция Бонферрони )
tdc
1
То же самое в основной теории измерения. Предположим, у нас есть микрометр, и мы хотим проверить, имеют ли два стержня одинаковый диаметр, мы проведем 100 измерений обоих стержней и проверим, перекрываются ли средние значения + стандартное отклонение. В обоих случаях (измерение стержня и метрика модели) мы просто предполагаем гауссово распределение результатов, единственным разумным аргументом является центральная предельная теорема .
JB.
3

Я рекомендую статью Тома Диттериха под названием «Приблизительные статистические тесты для сравнения контролируемых алгоритмов обучения классификации». Вот профиль статьи на CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Из аннотации: «В этой статье рассматриваются пять приблизительных статистических тестов для определения того, превосходит ли один алгоритм обучения другой в конкретной задаче обучения. Эти тесты сравниваются экспериментально, чтобы определить вероятность их неправильного определения различий при отсутствии различий (ошибка типа I). ) ... Показано, что тест Макнемара имеет низкую ошибку типа I. ... "

Эрик Ринггер
источник
2

ИМХО, не должно быть различий между распределением баллов и распространением данных любого другого типа. так что в основном все, что вам нужно проверить, это то, что ваши данные распределяются нормально или не видны здесь . Кроме того, Есть большие книги , которые имеют дело подробно с этим вопросом см здесь (т.е. в общем , они все испытание ли существенно отличается исход два классификатором .. и если они делают, они могут быть объединены в один - ансамбле модели)

Дов
источник
Я думаю, что они, скорее всего, не будут распространяться нормально. В обычном случае результаты будут положительными и будут смещены к одному концу диапазона (1 или 0 в зависимости от того, используете ли вы в качестве показателя точность или погрешность).
TDC
@tdc: в этом случае распределение функции (количество ошибочных классификаций) -> (количество моделей с таким количеством ошибочных классификаций) часто имхо бы имело сходное распределение Пуассона.
JB.
@Dov: Тестирование, какая модель значительно лучше (это вопрос ОП), и тестирование, если они разные, это совсем другое дело.
JB.
@jb. Спасибо. но я сказал, что значительно отличается не лучше ...
Дов
@ Ваша первая ссылка не работает - я не могу сказать, куда она должна указывать.
Тамзин Блейк
2

Не существует единого теста, подходящего для всех ситуаций; Я могу порекомендовать книгу «Оценка алгоритмов обучения» Натали Джапкович и Мохака Шаха, издательство Cambridge University Press, 2011. Тот факт, что на эту тему может быть написано почти 400 страниц, наводит на мысль, что это не простой вопрос. Я часто обнаруживал, что не существует теста, который действительно отвечал бы потребностям моего исследования, поэтому важно хорошо понимать преимущества и недостатки любого метода, который в конечном итоге используется.

Общая проблема заключается в том, что для больших наборов данных может быть получена статистически значимая разница с величиной эффекта, которая не имеет практического значения.

Дикран Сумчатый
источник