Может ли прогнозируемая вероятность логистической регрессии быть интерпретирована как уверенность в классификации

12

Можем ли мы интерпретировать апостериорную вероятность, полученную из классификатора, который выводит прогнозируемое значение класса и вероятность (например, логистическая регрессия или наивный байесовский критерий), как некоторый вид доверительной оценки, которая присваивается этому прогнозируемому значению класса?

Mel
источник

Ответы:

8

Как правильно указывают другие ответы, сообщенные вероятности из таких моделей, как логистическая регрессия и наивный байесовский анализ, являются оценками вероятности класса. Если бы модель была верной, вероятность действительно была бы вероятностью правильной классификации.

Тем не менее, очень важно понимать, что это может вводить в заблуждение, потому что модель оценивается и, следовательно, не является правильной моделью. Есть как минимум три вопроса.

  • Неопределенность оценок.
  • Неверная спецификация модели.
  • Bias.

Неопределенность как раз везде присутствует факт , что вероятность является лишь приблизительным. Доверительный интервал предполагаемой вероятности класса может дать некоторое представление о неопределенности (вероятности класса, а не классификации).

Если процедура оценки (намеренно) дает необъективную оценку , вероятности класса ошибочны. Это то, что я вижу в методах регуляризации, таких как лассо и ридж для логистической регрессии. В то время как перекрестно проверенный выбор регуляризации приводит к модели с хорошими характеристиками в плане классификации, вероятности результирующего класса явно недооцениваются (слишком близко к 0,5) в тестовых случаях. Это не обязательно плохо, но важно осознавать.

NRH
источник
2

Для тестового случая (конкретного входа) его прогностическая вероятность (например, метка 1 для двоичного выхода) - это вероятность того, что тестовый пример принадлежит этому классу. Во многих таких тестовых случаях доля, принадлежащая классу 1, будет иметь тенденцию к прогнозирующей вероятности. У доверия есть коннотации доверительных интервалов, которые являются чем-то совершенно другим.

Yoda
источник
1

Если классификатор предсказывает определенный класс с вероятностью, это число может использоваться в качестве прокси для степени доверия к этой классификации. Не путать с доверительными интервалами. Например, если классификатор P предсказывает два случая как +1 и -1 с вероятностью 80% и 60%, то правильно сказать, что он более уверен в классификации +1, чем в классификации -1. Дисперсия, измеренная с помощью p (1-p), также является хорошим показателем неопределенности. Обратите внимание, что базовая достоверность составляет 50%, а не 0.

брокколи
источник
1

При наличии классификатора с 2-мя классами (например, 2-классным линейным дискриминантом или классификатором логистической регрессии) значение дискриминанта для обоих классов может быть применено к функции softmax для получения оценки апостериорной вероятности для этого класса:

P1 = exp (d1) / (exp (d1) + exp (d2))

Где P1 - апостериорная оценка вероятности для класса 1, d1 и d2 - дискриминантные значения для классов 1 и 2 соответственно. В этом случае предполагаемая апостериорная вероятность для данного класса может быть принята как степень доверия к классу, поскольку для данного случая P1 будет равно 1 - P2.

BGreene
источник
1
Этот ответ, по-видимому, приравнивает «вероятность» к «уверенности», тогда как ответ @ Йоды (правильно) различает два.
whuber
@whuber Я думаю, что в общих чертах уверенность можно рассматривать как силу веры. Таким образом, это похоже на вероятность. Уверенность и доверительный интервал - это две разные вещи. Однако даже для термина доверительный интервал уровень достоверности является вероятностью покрытия для случайного интервала.
Майкл Р. Черник
Я не согласен с вашими замечаниями, @Michael, в том смысле, что такой термин, как «показатель доверия», может означать почти все (но, возможно, его использование следует исключить именно по этой причине). Но в каком смысле значение, соответствующее логистической регрессии, является «вероятностью охвата»? Делает ли предложенное вами использование «уверенности» в качестве силы убеждения синонимом субъективной «вероятности» или же какое-то различие сохраняется? (Если так, то что?)
whuber
1
@whuber Я думаю, что вы углубляетесь в это гораздо глубже, чем я хотел в своем замечании. Я просто хочу сказать, что просто потому, что мы обычно связываем слово «достоверность» с доверительным интервалом, это не означает, что термин «доверительная оценка» ОП не может использоваться для обозначения вероятности (возможно, как байесовский взгляд на вероятность как субъективный уровень веры, но не обязательно).
Майкл Р. Черник
1
@whuber, я действительно имел в виду доверие к метке класса в смысле «сила веры», то есть чем больше апостериорное значение вероятности для данного класса, тем больше у вас уверенности в предсказанной метке класса. Я счастлив удалить этот ответ однако.
BGreene