Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую модель. Я делаю это десять раз для каждого классификатора. Поэтому у меня есть десять оценок точности классификации для каждого классификатора. Как я статистически тест ли является лучше , чем классификатор с л ы ы я е я е г 2на базовом наборе данных. Какой t-критерий подходит для использования?
machine-learning
classification
t-test
энтропия
источник
источник
Ответы:
Обзор и критика некоторых подходов к t-тесту даны в разделе «Выбор между двумя алгоритмами обучения на основе калиброванных тестов» , « Приблизительные статистические тесты для сравнения алгоритмов обучения с контролируемой классификацией» и « Сравнение классификаторов: ошибки, которых следует избегать, и рекомендуемый подход».
источник
У меня нет под рукой книги Флейса, так что все это IIRC.
Отвечая на вопрос @ JohnMoeller в комментариях на данный момент: оригинальный вопрос ИМХО неопровержим, как он есть.
В результате вы получите таблицу непредвиденных обстоятельств 2 x 2, в которой классификатор 1 будет правильным / неправильным, а классификатор 2 - правильным / неправильным. Что является отправной точкой для теста Макнемара . Так что это для парного сравнения, которое является более мощным, чем сравнение «независимых» пропорций (которые не являются полностью независимыми, если они получены случайным образом из одного и того же конечного образца).
Я не могу сейчас найти «мелкий шрифт» Макнемара, но 30 образцов - это немного. Таким образом, вам, возможно, даже придется перейти от точного критерия Макнемара к критерию Фишера [или к чему-то еще], который вычисляет биномиальные вероятности.
Средства пропорций:
не имеет значения, тестируете ли вы один и тот же классификатор 10х с 10 тестовыми случаями или один раз со всеми этими 100 случаями (таблица 2х2 просто подсчитывает все тестовые случаи).
Если 10 оценок точности для каждого классификатора в исходном вопросе получены путем случайного удержания или 10-кратной перекрестной проверки или 10-кратного отсутствия начальной загрузки, обычно предполагается, что 10 суррогатных моделей, рассчитанных для каждого классификатора, эквивалентны (= имеют одинаковую точность), поэтому результаты испытаний могут быть объединены *. Для 10-кратной перекрестной проверки вы затем предполагаете, что размер тестовой пробы равен общему количеству тестовых образцов. Что касается других методов, я не уверен: вы можете проверять один и тот же случай более одного раза. В зависимости от данных / проблемы / приложения, это не так много информации, как тестирование нового случая.
Поместите результаты повторного резюме в «правильную классификационную матрицу», где каждая строка соответствует одному случаю, а каждый столбец - одной из суррогатных моделей. Теперь дисперсия вдоль строк (удаление всех пустых элементов) обусловлена исключительно нестабильностью в суррогатных моделях. Разница в столбцах обусловлена конечным числом случаев, которые вы использовали для тестирования этой суррогатной модели. Скажи у тебяК N п^= кN σ2( р^) = σ2( кN) = p ( 1 - p )N
источник