У меня есть несколько вопросов по поводу обозначений, использованных в Разделе 9.2. Отсутствие врожденного превосходства любого классификатора в классификации образцов Дуды, Харта и Аиста . Сначала позвольте мне процитировать некоторый соответствующий текст из книги:
- Для простоты рассмотрим задачу с двумя категориями, где обучающий набор состоит из шаблонов и соответствующих меток категорий для сгенерированных неизвестной целевой функцией, подлежащей изучению, , где .
- Пусть обозначает (дискретный) набор гипотез или возможные наборы параметров, которые необходимо изучить. Конкретная гипотеза может быть описана квантованными весами в нейронной сети, или параметрами 0 в функциональной модели, или наборами решений в дереве, и так далее.
- Кроме того, - априорная вероятность того, что алгоритм выведет гипотезу после обучения; обратите внимание, что это не вероятность того, что является правильным.
- Далее, обозначает вероятность того, что алгоритм позволит получить гипотезу , когда на подготовку данных . В детерминированных алгоритмах обучения, таких как деревья ближайшего соседа и деревья решений, будет везде нулевым, за исключением одной гипотезы . Для стохастических методов (таких как нейронные сети, обученные по случайным начальным весам) или стохастического обучения Больцмана, может быть широким распределением.
- Пусть будет ошибкой для нулевой или другой функции потерь.
Ожидаемая ошибка классификации вне тренировочного набора, когда истинная функция равна а вероятность алгоритма обучения го кандидата равна , определяется какк Р к ( ч ( х ) | Д ) Е к ( Е | Р , п ) = Σ х ∉ Д Р ( х ) [ 1 - δ ( Р ( х ) , ч ( х ) ) ] Р k ( h ( x ) | D )
Теорема 9.1. (Без бесплатного обеда) Для любых двух алгоритмов обучения и справедливо следующее, независимо от распределения выборки и количества тренировочных точек:P 2 ( h | D ) P ( x ) n
Равномерно усреднено по всем целевым функциям ,E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0
Для любого фиксированного обучающего набора , равномерно усредненного по ,
Часть 1 на самом деле говорит
Часть 2 на самом деле говорит
Мои вопросы
- В формуле , то есть можно ли заменить на и переместить его за пределы суммы , потому что это действительно распределение по заданное для го алгоритма стохастического обучения?
- Учитывая, что алгоритм обучения го кандидата является стохастическим методом, почему в формуле нет суммы по , т.е. ?
Чем и отличаются друг от друга?
Означает ли частоту ошибок при обучении с учетом обучающего набора ?
Означает ли частоту появления ошибок при обучении, усредненную по всему обучающему набору с учетом размера обучения ? Если да, почему часть 1 в теореме НФЛ усредняет по обучающим наборам снова, записывая , и почему в формуле для не существует среднего значения по всему тренировочному набору, учитывая размер обучения ?
- В части 1 теоремы НФЛ означает ли суммирование по всем тренировочным наборам с фиксированным размером обучения ?
- Если дальнейшее суммирование по всем возможным значениям в обучающего размера в части 1, результат по-прежнему равен 0, верно?
- В формуле , если я изменю на , т. не обязательно ограничен вне обучающего набора, обе части Теорема НФЛ все еще будет правдой?
- Если истинное соотношение между и не предполагается как детерминированная функция при , а вместо этого - условное распределение или совместное распределение которое эквивалентно зная и (см. также мой другой вопрос ), я могу изменить
на (со странным указано в части 1 и 2). Две части в теореме НФЛ все еще верны?
Спасибо и всего наилучшего!
Ответы:
Я отвечу на вопросы, на которые, я думаю, я знаю ответы.
Не могу комментировать 6 и 7.
источник