В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

Давайте рассмотрим проблему классификации набора данных MNIST.

Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети.

Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную гипотезу, которую они получили, используя качестве , и их частоту ошибок в тестовом наборе MNIST, используя как . $D_{train}$ $D_{test}$ $D_{train}$ $h_{1}$ $h_{1}$ $E_{test}(h_{1}) = 0.0023$

С их точки зрения, поскольку - это набор тестов с произвольной выборкой из входного пространства независимо от , они могут настаивать на том, что показатель ошибок вне выборки их окончательной гипотезы равен ограниченный как следует из неравенства Хеффдинга где, $D_{test}$ $h_{1}$ $E_{out}(h_{1})$

п [| Е_{о U T} ({час}_{1}) - Е_{T е s T} ({час}_{1}) | < ε |] \geq 1 - 2 е^{2 ε^{2} N_{T е s T}}

$P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}}$

N_{t e s t} = | D_{t e s t} |

$N_{test}=|D_{test}|$

Другими словами, по крайней мере, вероятность , $1-\delta$

Е_{о U T} ({час}_{1}) \leq Е_{T е s T} ({час}_{1}) + \sqrt{\frac{1}{2 N_{T е s T}} L N \frac{2}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}$

Давайте рассмотрим другую точку зрения. Предположим, что кто-то хочет хорошо классифицировать набор тестов MNIST. Поэтому он сначала заглянул на веб-страницу MNIST Яна ЛеКуна и обнаружил следующие результаты, полученные другими людьми, использующими 8 разных моделей:

Результаты классификации MNIST

и выбрал свою модель $g$ которая показала лучшие результаты на тестовом наборе MNIST среди 8 моделей.

Для него в процессе обучения была выбрана гипотеза $g$ которая лучше всего работала на наборе тестов $D_{test}$ из набора гипотез $H_{trained}=\{h_1, h_2, .. ,h_8\}$ .

Таким образом, ошибка в тестовом наборе является ошибкой «в выборке» для этого процесса обучения, поэтому он может применить оценку VC для конечных наборов гипотез в виде следующего неравенства. $E_{test}(g)$

п [| Е_{о U T} (грамм) - Е_{я N} (грамм) | < ε] \geq 1 - 2 | {ЧАС}_{T р a я N е d} | е^{2 ε^{2} N_{T е s T}}

$P[|E_{out}(g)-E_{in}(g)|<\epsilon] \geq 1 - 2|H_{trained}|e^{2\epsilon^{2}N_{test}}$

Другими словами, по крайней мере, вероятность , $1-\delta$

Е_{о U T} (грамм) \leq Е_{T е s T} (грамм) + \sqrt{\frac{1}{2 N_{T е s T}} L N \frac{2 | {ЧАС}_{T р a я N е d} |}{δ}}

$E_{out}(g) \leq E_{test}(g) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

Этот результат подразумевает, что на тестовом наборе может возникнуть перегрузка, если мы выберем модель, которая работает лучше всего среди нескольких моделей.

В этом случае человек может выбрать с самой низкой частотой ошибок . Поскольку является лучшей гипотезой среди 8 моделей в этом конкретном наборе тестов , может существовать некоторая вероятность того, что является гипотезой, переопределенной в наборе тестов MNIST. $h_{1}$ $E_{test}(h_{1}) = 0.0023$ $h_{1}$ $D_{test}$ $h_{1}$

Таким образом, этот человек может настаивать на следующем неравенстве.

Е_{о U T} ({час}_{1}) \leq Е_{T е s T} ({час}_{1}) + \sqrt{\frac{1}{2 N_{T е s T}} L N \frac{2 | {ЧАС}_{T р a я N е d} |}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

Следовательно, мы получили два неравенства and .

п [Е_{о U T} ({час}_{1}) \leq Е_{T е s T} ({час}_{1}) + \sqrt{\frac{1}{2 N_{T е s T}} L N \frac{2}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}\;] \geq 1-\delta$

п [Е_{о U T} ({час}_{1}) \leq Е_{T е s T} ({час}_{1}) + \sqrt{\frac{1}{2 N_{T е s T}} L N \frac{2 | {ЧАС}_{T р a я N е d} |}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}\;] \geq 1-\delta$

Однако очевидно, что эти два неравенства несовместимы.

Где я делаю не так? Кто из них прав, а кто нет?

Если последнее неверно, как правильно применить оценку VC для конечных наборов гипотез в этом случае?

machine-learning classification overfitting probability-inequalities asqdf
источник

Я думаю, что среди этих двух неравенств последнее неверно. Вкратце, что здесь не так, так это тождество учитывая, что является функцией тестовых данных, в то время как является моделью, независимой от тестовых данных. $g=h_1$ $g$ $h_1$

Фактически, - это одна из 8 моделей в которая наилучшим образом прогнозирует набор тестов . $g$ $H_{trained} = \{ h_1, h_2,..., h_8 \}$ $D_{test}$

Следовательно, является функцией . Для определенного набора тестов, (как и тот, который вы упомянули), может случиться так, что , но в целом, в зависимости от набора тестов, может принимать любое значение в . С другой стороны, - это всего лишь одно значение в . $g$ $D_{test}$ $D^*_{test}$ $g(D^*_{test}) = h_1$ $g(D_{test})$ $H_{trained}$ $h_1$ $H_{trained}$

По другому вопросу:

Если последнее неверно, как правильно применить оценку VC для конечных наборов гипотез в этом случае?

Только не заменяйте на , вы получите правильную границу (для , конечно), и она не будет конфликтовать с другой границей (которая для ). $g$ $h_1$ $g$ $h_1$

Tĩnh Trần
источник

В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

Ответы: