Понимание отсутствия теоремы о бесплатном обеде в Duda et al.

12

У меня есть несколько вопросов по поводу обозначений, использованных в Разделе 9.2. Отсутствие врожденного превосходства любого классификатора в классификации образцов Дуды, Харта и Аиста . Сначала позвольте мне процитировать некоторый соответствующий текст из книги:

  • Для простоты рассмотрим задачу с двумя категориями, где обучающий набор состоит из шаблонов и соответствующих меток категорий для сгенерированных неизвестной целевой функцией, подлежащей изучению, , где .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • Пусть обозначает (дискретный) набор гипотез или возможные наборы параметров, которые необходимо изучить. Конкретная гипотеза может быть описана квантованными весами в нейронной сети, или параметрами 0 в функциональной модели, или наборами решений в дереве, и так далее.Hh(x)H
  • Кроме того, - априорная вероятность того, что алгоритм выведет гипотезу после обучения; обратите внимание, что это не вероятность того, что является правильным.P(h)hh
  • Далее, обозначает вероятность того, что алгоритм позволит получить гипотезу , когда на подготовку данных . В детерминированных алгоритмах обучения, таких как деревья ближайшего соседа и деревья решений, будет везде нулевым, за исключением одной гипотезы . Для стохастических методов (таких как нейронные сети, обученные по случайным начальным весам) или стохастического обучения Больцмана, может быть широким распределением.P(h|D)hDP(h|D)hP(h|D)
  • Пусть будет ошибкой для нулевой или другой функции потерь.E

Ожидаемая ошибка классификации вне тренировочного набора, когда истинная функция равна а вероятность алгоритма обучения го кандидата равна , определяется какк Р к ( ч ( х ) | Д ) Е к ( Е | Р , п ) = Σ х Д Р ( х ) [ 1 - δ ( Р ( х ) , ч ( х ) ) ] Р k ( h ( x ) | D )F(x)kPk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Теорема 9.1. (Без бесплатного обеда) Для любых двух алгоритмов обучения и справедливо следующее, независимо от распределения выборки и количества тренировочных точек:P 2 ( h | D ) P ( x ) nP1(h|D)P2(h|D)P(x)n

  1. Равномерно усреднено по всем целевым функциям ,E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0FE1(E|F,n)E2(E|F,n)=0

  2. Для любого фиксированного обучающего набора , равномерно усредненного по , DFE1(E|F,D)E2(E|F,D)=0

Часть 1 на самом деле говорит

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Часть 2 на самом деле говорит

F[E1(E|F,D)E2(E|F,D)]=0

Мои вопросы

  1. В формуле , то есть можно ли заменить на и переместить его за пределы суммы , потому что это действительно распределение по заданное для го алгоритма стохастического обучения?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Учитывая, что алгоритм обучения го кандидата является стохастическим методом, почему в формуле нет суммы по , т.е. ?kEk(E|F,n)hhH
  3. Чем и отличаются друг от друга?Ei(E|F,D)Ei(E|F,n)

    Означает ли частоту ошибок при обучении с учетом обучающего набора ?Ei(E|F,D)D

    Означает ли частоту появления ошибок при обучении, усредненную по всему обучающему набору с учетом размера обучения ? Если да, почему часть 1 в теореме НФЛ усредняет по обучающим наборам снова, записывая , и почему в формуле для не существует среднего значения по всему тренировочному набору, учитывая размер обучения ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. В части 1 теоремы НФЛ означает ли суммирование по всем тренировочным наборам с фиксированным размером обучения ?Dn
  5. Если дальнейшее суммирование по всем возможным значениям в обучающего размера в части 1, результат по-прежнему равен 0, верно?Nn
  6. В формуле , если я изменю на , т. не обязательно ограничен вне обучающего набора, обе части Теорема НФЛ все еще будет правдой?Ek(E|F,n)xDxx
  7. Если истинное соотношение между и не предполагается как детерминированная функция при , а вместо этого - условное распределение или совместное распределение которое эквивалентно зная и (см. также мой другой вопрос ), я могу изменить на (со странным указано в части 1 и 2). Две части в теореме НФЛ все еще верны?xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Спасибо и всего наилучшего!

Тим
источник
Является ли Dirac / Kronecker-delta? Вδ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)
Является ли эта теорема об отсутствии бесплатного обеда такой же, как проблема Остановки? Они связаны?

Ответы:

6

Я отвечу на вопросы, на которые, я думаю, я знаю ответы.

  1. Этот ответ отрицательный, потому что вы выбираете который не был частью набора подгонки и поэтому зависит от .xDhx
  2. h оценивается только по значениям в тестовом наборе для получения ожидаемой частоты ошибок, поэтому он оценивается не по всему набору а только по дискретному набору в тестовом наборе.xHx
  3. Ei(E|F,D) является ожидаемым от частоты ошибок обучения набора заданной функции и обучающее множество . Но я думаю, отличается, потому что вы только обусловливаете количество тренировочных точек а не фактические значения . Но это озадачивает, учитывая последующие заявления.FDEi(E|F,n)nx
  4. D - набор обучающих векторов. В есть обучающих векторов . Таким образом , вы суммирование по фиксированному обучения векторов в . Существует только один набор .nDnDD
  5. Я думаю, что ответ на 5 - нет. Запись кажется немного запутанной.

Не могу комментировать 6 и 7.

Майкл Р. Черник
источник
2
+1. Добро пожаловать на сайт, я большой поклонник ваших отзывов на Amazon. Извините за мое предположение при редактировании, математическая нотация в основном делается с помощью символов $ с обеих сторон чего-либо. Если вы нажмете на желтом круге? в правом верхнем углу при написании вы увидите ссылку для «расширенной справки», которая даст больше информации; Кроме того, вы можете щелкнуть правой кнопкой мыши на существующем mathjax (например, любом из вышеперечисленных) и выбрать «Show Math As -> TeX команды», чтобы увидеть, как это было сделано.
gung - Восстановить Монику
2
Другими словами, @gung говорит: этот сайт поддерживает (почти) точно так, как вы ожидаете, включая отображение математики. Добро пожаловать на сайт. LATEX
кардинал
@ Майкл Пожалуйста, позвольте мне поприветствовать этих других: я рад видеть вас здесь. (Майкл внес исключительно знающий вклад в дискуссионные списки Американской статистической ассоциации.)
whuber