Можно ли использовать среднеквадратичную ошибку для классификации?

14

Я знаю формулу среднеквадратичной ошибки и как ее вычислить. Когда мы говорим о регрессии, мы можем вычислить среднеквадратическую ошибку. Однако можно ли говорить о MSE для задачи классификации и как ее вычислить?

kamaci
источник

Ответы:

12

Многие классификаторы могут прогнозировать непрерывные оценки. Часто непрерывные оценки являются промежуточными результатами, которые преобразуются только в метки классов (обычно по порогу) как самый последний шаг классификации. В других случаях, например, могут быть рассчитаны апостериорные вероятности принадлежности к классу (например, дискриминантный анализ, логистическая регрессия). Вы можете рассчитать MSE, используя эти непрерывные оценки, а не метки классов. Преимущество этого состоит в том, что вы избегаете потери информации из-за дихотомии.
Когда непрерывная оценка является вероятностью, метрика MSE называется оценкой Бриера.

Однако существуют также проблемы классификации, которые являются скорее скрытыми проблемами регрессии. В моей области это может быть, например, классификация случаев в зависимости от того, превышает ли концентрация какого-либо вещества законный предел или нет (что является бинарной / дискриминационной проблемой двух классов). Здесь, MSE является естественным выбором из-за основного регрессионного характера задачи.

В этой статье мы объясняем это как часть более общей структуры: C. Beleites, R. Salzer и V. Sergo:
валидация моделей мягкой классификации с использованием частичного членства в классе: расширенная концепция чувствительности и Ко применительно к классификации астроцитомных тканей
Chemom. Интелл. Лаборатория Syst., 122 (2013), 12 - 22.

Как его вычислить: если вы работаете в R, одна реализация находится в пакете "softclassval", http: /softclassval.r-forge.r-project.org.

cbeleites недоволен SX
источник
@ seanv507: большое спасибо!
cbeleites недоволен SX
1

Я не совсем понимаю, как ... успешная классификация - это бинарная переменная (правильная или нет), поэтому трудно увидеть, что вы бы возвели в квадрат.

Обычно классификации измеряются по таким показателям, как процент правильных значений, когда классификация, которая была оценена по обучающему набору, применяется к набору для испытаний, который был отложен ранее.

Среднеквадратическую ошибку можно, конечно, вычислить (и вычислить) для прогнозов или прогнозных значений непрерывных переменных, но я думаю, что это не для классификаций.

Питер Эллис
источник
0

Для оценки вероятности вы бы хотели вычислить не MSE, а вместо этого вероятность:π^

L=iπ^iyi(1π^i)1yi

Эта вероятность для двоичного ответа, который, как предполагается, имеет распределение Бернулли.

Если вы берете лог и затем отрицаете, вы получаете логистическую потерю, которая является своего рода аналогом MSE, когда у вас есть двоичный ответ. В частности, MSE - это отрицательная логарифмическая вероятность непрерывного отклика, предположительно имеющего нормальное распределение.L

Пользователь0
источник
0

Технически это возможно, но функция MSE невыпуклая для двоичной классификации. Таким образом, если бинарная классификационная модель обучается с помощью функции стоимости MSE, то не гарантируется минимизация функции стоимости . Кроме того, использование MSE в качестве функции стоимости предполагает распределение по Гауссу, что не относится к двоичной классификации.

Мостафа Нахаеи
источник
1
Почему MSE предполагает распределение по Гауссу? (В противоположность, скажем, регрессии наименьших квадратов в качестве потерь используется MSE, и мы можем показать, что она оптимальна для задач регрессии с нормально распределенными остатками)
cbeleites недоволен SX
Это не оптимально для бинарной классификации, но оптимально для регрессии. Вопрос был для двоичного.
Мостафа Нахаеи
Вопрос не говорит о бинарной классификации. Это даже не говорит о дискриминации. И это не спрашивает об оптимальности (для которой вам нужно было бы быть более точным в отношении ситуации, даже не говоря о двоичном или дискриминационном с двумя классами), а о том, можно ли использовать MSE. Кроме того, оценка Бриера является строго надлежащим правилом оценки для прогнозирования, поэтому более детальное объяснение неоптимальности, безусловно, будет полезным (и, возможно, очень полезным для понимания того, когда применяется эта неоптимальность).
cbeleites недоволен SX