В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

16

Давайте рассмотрим проблему классификации набора данных MNIST.

Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети.

Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную гипотезу, которую они получили, используя качестве , и их частоту ошибок в тестовом наборе MNIST, используя как .DTрaяNDTеsTDTрaяNчас1час1ЕTеsT(час1)знак равно0,0023

С их точки зрения, поскольку - это набор тестов с произвольной выборкой из входного пространства независимо от , они могут настаивать на том, что показатель ошибок вне выборки их окончательной гипотезы равен ограниченный как следует из неравенства Хеффдинга где, ч 1 Е о у т ( ч 1 ) Р [ | E о у т ( ч 1 ) - E т е с т ( ч 1 ) | < ϵ | ] 1 - 2 e 2 ϵ 2 N t e s t N t e s t = |DTеsTчас1ЕоUT(час1)

п[|ЕоUT(час1)-ЕTеsT(час1)|<ε|]1-2е2ε2NTеsT

NTеsTзнак равно|DTеsT|

Другими словами, по крайней мере, вероятность , 1-δ

ЕоUT(час1)ЕTеsT(час1)+12NTеsTLN2δ

Давайте рассмотрим другую точку зрения. Предположим, что кто-то хочет хорошо классифицировать набор тестов MNIST. Поэтому он сначала заглянул на веб-страницу MNIST Яна ЛеКуна и обнаружил следующие результаты, полученные другими людьми, использующими 8 разных моделей:

Результаты классификации MNIST

и выбрал свою модель грамм которая показала лучшие результаты на тестовом наборе MNIST среди 8 моделей.

Для него в процессе обучения была выбрана гипотеза грамм которая лучше всего работала на наборе тестов DTеsT из набора гипотез ЧАСTрaяNеdзнак равно{час1,час2,,,,час8} .

Таким образом, ошибка в тестовом наборе является ошибкой «в выборке» для этого процесса обучения, поэтому он может применить оценку VC для конечных наборов гипотез в виде следующего неравенства. ЕTеsT(грамм)

п[|ЕоUT(грамм)-ЕяN(грамм)|<ε]1-2|ЧАСTрaяNеd|е2ε2NTеsT

Другими словами, по крайней мере, вероятность , 1-δ

ЕоUT(грамм)ЕTеsT(грамм)+12NTеsTLN2|ЧАСTрaяNеd|δ

Этот результат подразумевает, что на тестовом наборе может возникнуть перегрузка, если мы выберем модель, которая работает лучше всего среди нескольких моделей.

В этом случае человек может выбрать с самой низкой частотой ошибок . Поскольку является лучшей гипотезой среди 8 моделей в этом конкретном наборе тестов , может существовать некоторая вероятность того, что является гипотезой, переопределенной в наборе тестов MNIST.час1ЕTеsT(час1)знак равно0,0023час1DTеsTчас1

Таким образом, этот человек может настаивать на следующем неравенстве.

ЕоUT(час1)ЕTеsT(час1)+12NTеsTLN2|ЧАСTрaяNеd|δ

Следовательно, мы получили два неравенства and .

п[ЕоUT(час1)ЕTеsT(час1)+12NTеsTLN2δ]1-δ
п[ЕоUT(час1)ЕTеsT(час1)+12NTеsTLN2|ЧАСTрaяNеd|δ]1-δ

Однако очевидно, что эти два неравенства несовместимы.

Где я делаю не так? Кто из них прав, а кто нет?

Если последнее неверно, как правильно применить оценку VC для конечных наборов гипотез в этом случае?

asqdf
источник

Ответы:

1

Я думаю, что среди этих двух неравенств последнее неверно. Вкратце, что здесь не так, так это тождество учитывая, что является функцией тестовых данных, в то время как является моделью, независимой от тестовых данных.граммзнак равночас1граммчас1

Фактически, - это одна из 8 моделей в которая наилучшим образом прогнозирует набор тестов .граммЧАСTрaяNеdзнак равно{час1,час2,,,,,час8}DTеsT

Следовательно, является функцией . Для определенного набора тестов, (как и тот, который вы упомянули), может случиться так, что , но в целом, в зависимости от набора тестов, может принимать любое значение в . С другой стороны, - это всего лишь одно значение в .граммDTеsTDTеsT*грамм(DTеsT*)знак равночас1грамм(DTеsT)ЧАСTрaяNеdчас1ЧАСTрaяNеd

По другому вопросу:

Если последнее неверно, как правильно применить оценку VC для конечных наборов гипотез в этом случае?

Только не заменяйте на , вы получите правильную границу (для , конечно), и она не будет конфликтовать с другой границей (которая для ).граммчас1граммчас1

Tĩnh Trần
источник