Есть много ситуаций, когда вы можете обучить несколько разных классификаторов или использовать несколько разных методов извлечения признаков. В литературе авторы часто приводят среднюю ошибку классификации по набору случайных разбиений данных (т. Е. После дважды вложенной перекрестной проверки), а иногда также дают отклонения по ошибке по разбиениям. Однако одного этого недостаточно, чтобы сказать, что один классификатор значительно лучше другого. Я видел много разных подходов к этому - с использованием критерия хи-квадрат, t-критерия, ANOVA с последующим тестированием и т. Д.
Какой метод следует использовать для определения статистической значимости? В основе этого вопроса лежит вопрос: какие предположения мы должны сделать в отношении распределения результатов классификации?
Ответы:
В дополнение к отличному ответу @ jb. Позвольте мне добавить, что вы можете использовать тест МакНемара на том же наборе тестов, чтобы определить, значительно ли один классификатор лучше другого. Это будет работать только для задач классификации (то, что оригинальная работа Макнемара называла «дихотомической чертой»), означая, что классификаторы или понимают это правильно или неправильно, без пробела в середине.
источник
Поскольку распределение ошибок классификации является бинарным распределением (либо есть неправильная классификация, либо ее нет) - я бы сказал, что использование хи-квадрат не имеет смысла.
Также целесообразно сравнивать только эффективность классификаторов, которые работают с одними и теми же наборами данных. «Теорема о бесплатном обеде отсутствует» гласит, что все модели имеют одинаковую среднюю эффективность по всем наборам данных, поэтому то, какая модель будет выглядеть лучше, будет зависеть только от того, какие наборы данных были выбран для обучения их http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Если вы сравниваете эффективность моделей A и B с набором данных D, я думаю, что средняя эффективность + среднее достаточно для выбора.
Более того, если у вас есть много моделей, которые имеют резонирующую эффективность (и являются линейно независимыми друг от друга), я бы скорее построил модель ансамбля, чем просто выбрал лучшую модель.
источник
Я рекомендую статью Тома Диттериха под названием «Приблизительные статистические тесты для сравнения контролируемых алгоритмов обучения классификации». Вот профиль статьи на CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Из аннотации: «В этой статье рассматриваются пять приблизительных статистических тестов для определения того, превосходит ли один алгоритм обучения другой в конкретной задаче обучения. Эти тесты сравниваются экспериментально, чтобы определить вероятность их неправильного определения различий при отсутствии различий (ошибка типа I). ) ... Показано, что тест Макнемара имеет низкую ошибку типа I. ... "
источник
ИМХО, не должно быть различий между распределением баллов и распространением данных любого другого типа. так что в основном все, что вам нужно проверить, это то, что ваши данные распределяются нормально или не видны здесь . Кроме того, Есть большие книги , которые имеют дело подробно с этим вопросом см здесь (т.е. в общем , они все испытание ли существенно отличается исход два классификатором .. и если они делают, они могут быть объединены в один - ансамбле модели)
источник
Не существует единого теста, подходящего для всех ситуаций; Я могу порекомендовать книгу «Оценка алгоритмов обучения» Натали Джапкович и Мохака Шаха, издательство Cambridge University Press, 2011. Тот факт, что на эту тему может быть написано почти 400 страниц, наводит на мысль, что это не простой вопрос. Я часто обнаруживал, что не существует теста, который действительно отвечал бы потребностям моего исследования, поэтому важно хорошо понимать преимущества и недостатки любого метода, который в конечном итоге используется.
Общая проблема заключается в том, что для больших наборов данных может быть получена статистически значимая разница с величиной эффекта, которая не имеет практического значения.
источник