Почему наивный байесовский классификатор оптимален для проигрыша 0-1?

13

Наивный байесовский классификатор - это классификатор, который назначает элементы x классу C на основе максимизации апостериорного P(C|x) для членства в классе и предполагает, что характеристики элементов независимы.

Потеря 0-1 - это потеря, которая присваивает любой ошибочной классификации потерю «1», а потерю «0» - любой правильной классификации.

Я часто читаю (1), что «Наивный байесовский классификатор» является оптимальным для потери 0-1. Почему это правда?

(1) Один примерный источник: байесовский классификатор и байесовская ошибка


источник
2
Можете ли вы дать ссылку на свое утверждение: « Я часто читал, что« Наивный байесовский классификатор »является оптимальным для потери 0-1 »? Как, где , возможно , вы читали этот тип заявления в прошлом
Джон
1
отредактировал, добавил примерный источник

Ответы:

16

На самом деле это довольно просто: байесовский классификатор выбирает класс, который имеет наибольшую апостериорную вероятность появления (так называемая максимальная апостериорная оценка ). Функция потерь 0-1 наказывает ошибочную классификацию, то есть назначает наименьшую потерю решению, имеющему наибольшее количество правильных классификаций. Так что в обоих случаях речь идет об оценочном режиме . Напомним, что режим является наиболее распространенным значением в наборе данных или наиболее вероятным значением , поэтому как максимизация апостериорной вероятности, так и минимизация потерь 0-1 приводит к оценке режима.

Если вам нужно формальное доказательство, оно приведено в статье « Введение в байесовскую теорию решений » Анджелы Дж. Ю:

Функция двоичных потерь 0-1 имеет следующий вид:

lx(s^,s)=1δs^s={1ifs^s0otherwise

где - дельта-функция Кронекера. (...) ожидаемая потеря:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Это верно для максимальной апостериорной оценки в целом. Таким образом, если вы знаете апостериорное распределение, то при условии потери 0-1 наиболее оптимальным правилом классификации является выбор режима апостериорного распределения, мы называем это оптимальным байесовским классификатором . В реальной жизни мы обычно не знаем апостериорное распределение, а скорее оцениваем его. Наивный байесовский классификатор приближает оптимальный классификатор, рассматривая эмпирическое распределение и допуская независимость предикторов. Так что наивный байесовский классификатор сам по себе не является оптимальным, но он приближается к оптимальному решению. В вашем вопросе вы, кажется, путаете эти две вещи.

Тим
источник
Думаю, я понимаю: поэтому формальным доказательством будет нечто вроде Loss (action_1) = 1-P (action_2 | data) <--- мы хотим минимизировать это. Сведение к минимуму этого снова равно максимизации априора правильного класса (т. Е. Максимизации P (action_2 | data). Однако меня смущает то, почему не каждый классификатор будет оптимальным с этой точки зрения - так как это кажется самым основным требованием для присвоения образца данных классу. Таким образом, если мы всегда выбираем присвоение нашего образца данных классу с более высоким апостериором, разве мы не автоматически выполняем эту оптимальность?
@TestGuest проверь мое редактирование на предмет формального доказательства.
Тим
Это самый сложный формализм, который я видел для такого доказательства :)) Однако, спасибо, надеюсь, это поможет и другим.