Почему с помощью байесовского классификатора мы достигаем наилучшей производительности, которая может быть достигнута? Что является формальным доказательством / объяснением этого?
Обычно считается , что набор данных состоит из iid выборок распределения, которое генерирует ваши данные. Затем вы строите прогностическую модель на основе данных: для образца вы прогнозируете класс , тогда как реальный класс образца - .Dnxixif^(xi)f(xi)
Однако теоретически вы можете решить не выбирать одну конкретную модель , а рассмотреть сразу все возможные модели как-то объединить их в одну большую модель ,f^chosenf^F^
Конечно, учитывая данные, многие из меньших моделей могут быть совершенно невероятными или неуместными (например, модели, которые предсказывают только одно значение цели, даже если в вашем наборе данных есть несколько значений цели ).D
В любом случае вы хотите предсказать целевое значение новых выборок, которые извлекаются из того же распределения, что и s. Хорошим показателем о производительности вашей модели будет
то есть вероятность , что вы предсказать истинное целевое значение для случайной выборки .xiee(model)=P[f(X)=model(X)],
X
Используя формулу Байеса, вы можете вычислить, какова вероятность того, что новый образец иметь целевое значение , учитывая данные :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Следует подчеркнуть, что
- обычно равен или , поскольку является детерминированной функцией ,P(v∣f^)01f^x
- не обычно, но почти всегда невозможно оценить (за исключением вышеупомянутых тривиальных случаев),P(f^∣D)
- обычно, но почти всегда число возможных моделей слишком велико, чтобы можно было оценить верхнюю сумму.f^
Следовательно, очень трудно получить / оценить в большинстве случаев.P(v∣D)
Теперь мы переходим к оптимальному байесовскому классификатору. Для данного он предсказывает значение
Поскольку это наиболее вероятное значение среди всех возможных целевых значений , оптимальный байесовский классификатор максимизирует показатель эффективности .xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Как мы всегда используем байесовский классификатор в качестве эталона для сравнения производительности всех других классификаторов.
Возможно, вы используете наивную версию байесовского классификатора. Его легко реализовать, он работает достаточно хорошо большую часть времени, но вычисляет только наивную оценку .P(v∣D)
Производительность с точки зрения степени успеха классификатора относится к вероятности того, что истинный класс равен прогнозируемому классу .CT CP
Вы можете выразить эту вероятность в виде интеграла по всем возможным ситуациям вектора признаков (или суммы, когда дискретен) и условной вероятности для классификации правильной для этихX X x
Там , где есть плотность вероятности для функции вектора .f(x) X
Если для некоторого возможного набора признаков классификатор не выбирает наиболее вероятный класс для этого набора признаков, он может быть улучшен.x
Классификатор Байеса всегда выбирает наиболее вероятный класс для каждого набора признаков (термин является максимальным), поэтому не может быть улучшен, по крайней мере, не на основе признаков .x P(CT=CP|x) x
источник