Как принцип бритвы Оккама будет работать в машинном обучении

11

Следующий вопрос, показанный на картинке, был задан на одном из недавних экзаменов. Я не уверен, если я правильно понял принцип Бритвы Оккама или нет. В соответствии с распределением и границами решения, приведенными в вопросе, и после бритвы Оккама, граница решения B в обоих случаях должна быть ответом. Потому что в соответствии с бритвой Оккама, выберите более простой классификатор, который делает достойную работу, а не сложный.

Может ли кто-нибудь дать показания, если мое понимание верно и выбранный ответ является подходящим или нет? Пожалуйста, помогите, как я просто новичок в области машинного обучения

вопрос

user1479198
источник
2
3.328 «Если знак не нужен, то он не имеет смысла. В этом смысл бритвы Оккама». Из Логико-философский трактат Витгенштейна
Хорхе Барриос

Ответы:

13

Принцип бритвы оккама:

Имея две гипотезы (здесь границы решения), которые имеют одинаковый эмпирический риск (здесь ошибка обучения), краткое объяснение (здесь граница с меньшим количеством параметров) имеет тенденцию быть более обоснованным, чем длинное объяснение.

В вашем примере A и B имеют нулевую ошибку обучения, поэтому B (более короткое объяснение) является предпочтительным.

Что делать, если ошибка обучения не совпадает?

Если граница A имела меньшую ошибку обучения, чем B, выбор становится сложным. Нам нужно количественно определить «размер объяснения» так же, как «эмпирический риск» и объединить две в одной функции оценки, а затем приступить к сравнению А и В. В качестве примера можно привести информационный критерий Акаике (AIC), который объединяет эмпирический риск (измеренный с отрицательным значением). логарифмическая правдоподобие) и размер объяснения (измеряется количеством параметров) в одном балле.

Как примечание, AIC не может использоваться для всех моделей, также есть много альтернатив AIC.

Отношение к набору валидации

Во многих практических случаях, когда модель продвигается к большей сложности (более широкое объяснение) для достижения более низкой ошибки обучения, AIC и т.п. могут быть заменены набором проверки (набором, на котором модель не обучается). Мы останавливаем прогресс, когда ошибка проверки (ошибка модели при проверке набора) начинает увеличиваться. Таким образом, мы соблюдаем баланс между низкой ошибкой обучения и коротким объяснением.

Esmailian
источник
3

Occam Razor - это просто синоним принципа Parsimony. (ПОЦЕЛУЙ, Держи это простым и глупым.) Большинство алгоритмов работают в этом принципе.

В вышеприведенном вопросе нужно подумать при разработке простых разделимых границ,

Как и на первом рисунке, ответ D1 - B. Поскольку он определяет лучшую линию, разделяющую 2 образца, то a является полиномом и может закончиться переопределением. (если бы я использовал SVM, эта строка пришла бы)

аналогично на рисунке 2 ответом D2 является B.

Гаурав Догра
источник
2

Бритва Оккама в задачах подбора данных:

  1. Сначала попробуйте линейное уравнение
  2. Если (1) не очень помогает - выберите нелинейный с меньшим количеством членов и / или меньшей степенью переменных.

D2

Bявно выигрывает, потому что это линейная граница, которая хорошо разделяет данные. (Что «хорошо» я не могу сейчас определить. Вы должны развивать это чувство с опытом). AГраница сильно нелинейная, которая выглядит как дрожащая синусоида.

D1

Однако я не уверен в этом. AГраница похожа на круг и Bявляется строго линейной. ИМХО, для меня - линия границы не является ни отрезком круга, ни отрезком, это параболическая кривая:

введите описание изображения здесь

Поэтому я выбираю C:-)

Агниус Василяускас
источник
Я все еще не уверен, почему вы хотите промежуточную линию для D1. Бритва Оккама говорит использовать простое решение , которое работает. При отсутствии большего количества данных B является совершенно допустимым делением, которое соответствует данным. Если бы мы получили больше данных, которые предлагают больше кривой для набора данных B, я мог бы увидеть ваш аргумент, но запрос C идет вразрез с вашей точкой (1), так как это линейная граница, которая работает.
Delioth
Потому что есть много пустого пространство от Bлинии к левому круговому кластеру точек. Это означает, что любая новая прибывающая случайная точка имеет очень высокий шанс быть назначенным на круговой кластер слева и очень маленький шанс быть назначенным на кластер справа. Таким образом, Bлиния не является оптимальной границей в случае новых случайных точек на плоскости. И вы не можете игнорировать хаотичность данных, потому что , как правило , всегда есть случайное смещение точек
Agnius Василиаускас
0

Я не уверен, если я правильно понял принцип Бритвы Оккама или нет.

первый адрес Давайте Бритва Оккама:

Бритва Оккама утверждает, что «более простые решения с большей вероятностью будут правильными, чем сложные». - вики

Далее давайте ответим на ваш ответ:

Потому что, как на бритву Оккама, выбрать простой классификатор, который делает достойную работу, а не сложная.

Это правильно, потому что в машинном обучении переоснащение является проблемой. Если вы выберете более сложную модель, вы с большей вероятностью классифицируете тестовые данные, а не реальное поведение вашей проблемы. Это означает, что когда вы используете свой сложный классификатор для прогнозирования новых данных, он, скорее всего, будет хуже, чем простой классификатор.

Маленький помощник
источник