Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки

39

Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать.


«Одно стандартное правило ошибки» применяется при выборе моделей путем перекрестной проверки (или, в более общем случае, посредством любой процедуры на основе рандомизации).

Предположим, что мы рассматриваем модели Mτ индексированные параметром сложности , такие, что является "более сложным", чем именно тогда, когда . Предположим далее, что мы оцениваем качество модели помощью некоторого процесса рандомизации, например перекрестной проверки. Пусть обозначает «среднее» качество , например, среднюю ошибку прогноза вне пакета во многих прогонах перекрестной проверки. Мы хотим минимизировать это количество.τRMτMττ>τMq(M)M

Тем не менее, поскольку наша мера качества исходит из некоторой процедуры рандомизации, она меняется. Обозначим через стандартную ошибку качества в прогонах рандомизации, например, стандартное отклонение ошибки предсказания вне пакета прогонах перекрестной проверки.s(M)MM

Затем мы выбираем модель , где - наименьший такой, чтоMτττ

q(Mτ)q(Mτ)+s(Mτ),

где индексирует (в среднем) лучшую модель, .τq(Mτ)=minτq(Mτ)

То есть мы выбираем простейшую модель (самую маленькую ), которая на одну стандартную ошибку хуже, чем лучшая модель в процедуре рандомизации.τMτ

Я нашел это «одно стандартное правило ошибки», на которое ссылаются в следующих местах, но никогда без какого-либо явного обоснования:

DavidShor
источник
7
Хотя я знаю, что вы имеете в виду под «одним стандартным правилом ошибки», я сильно подозреваю, что многие люди этого не сделают, но им будет интересен этот вопрос, если они это сделают. Может быть, вы могли бы отредактировать, чтобы добавить пару пояснительных предложений? (Просто предложение ...)
jbowman
2
@jbowman: Я только что отредактировал вопрос, чтобы объяснить одно стандартное правило ошибки, но оно тоже меня интересует ... и ответ ниже на самом деле не отвечает на мои вопросы. Любой, пожалуйста, не стесняйтесь улучшать.
С. Коласса - Восстановить Монику
Связанный: stats.stackexchange.com/questions/138569
амеба говорит Восстановить Монику
2
Это было бы хорошей темой для статьи. Это кажется разумной инженерной эвристикой, но не все SEH работают на практике, поэтому было бы интересно изучить большое количество наборов данных. Я действительно задаюсь вопросом, существует ли проблема проверки нескольких гипотез, которая может означать, что она не очень хорошо откалибрована, но я бы подумал, что это было бы лучше, чем ничего не делать с наборами данных, где такая перестройка, вероятно, будет проблема. Вопрос в том, ухудшает ли это производительность наборов данных, где это не является проблемой?
Дикран Сумчатый

Ответы:

12

Следующее не является эмпирическим исследованием, поэтому я изначально хотел опубликовать его как комментарий, а не как ответ - но на самом деле это оказывается слишком длинным для комментария.

Cawley & Talbot ( J of Machine Learning Research , 2010) обращают внимание на разницу между переоснащением на этапе выбора модели и переоснащением на этапе подбора модели.

Второй вид переоснащения - это тот, с которым большинство людей знакомо: учитывая конкретную модель, мы не хотим ее переопределять, т. Е. Слишком близко подходить к конкретным особенностям единственного набора данных, который у нас обычно есть. ( Вот где может помочь усадка / регуляризация, торгуя небольшим увеличением смещения против большого уменьшения дисперсии. )

Тем не менее, Коули и Тэлбот утверждают, что мы можем подобрать подходящую модель на этапе выбора модели. В конце концов, у нас все еще обычно есть только один набор данных, и мы выбираем между различными моделями различной сложности. Оценка каждого кандидата модель для того , чтобы выбрать один , как правило , включает в себя установку , что модель, которая может быть сделано с помощью регуляризации или нет. Но эта оценка сама по себе снова является случайной величиной, потому что она зависит от конкретного набора данных, который у нас есть. Таким образом , наш выбор «оптимальная» модель сам по себе может проявлять предвзятость, и будет демонстрировать дисперсию, в зависимости от набора конкретных данных из всех наборов данных , мы могли бы извлечь из населения.

Поэтому Коули и Тэлбот утверждают, что простой выбор модели, которая лучше всего подходит для этой оценки, вполне может быть правилом выбора с небольшим уклоном, но он может демонстрировать большие расхождения. То есть, учитывая разные наборы обучающих данных из одного и того же процесса генерирования данных (DGP), это правило может выбирать очень разные модели, которые затем будут подгоняться и использоваться для прогнозирования в новых наборах данных, которые снова следуют тому же DGP. В этом свете ограничение дисперсии процедуры выбора модели, но небольшое отклонение в сторону более простых моделей может привести к меньшим ошибкам вне выборки.

Cawley & Talbot не связывают это явно с одним стандартным правилом ошибок, и их раздел «регуляризация выбора модели» очень короткий. Однако одно стандартное правило ошибки будет выполнять именно эту регуляризацию и принимать во внимание взаимосвязь между дисперсией в выборе модели и дисперсией ошибки перекрестной проверки из пакета.

Например, ниже приведен рисунок 2.3 из статистического обучения с редкостью от Hastie, Tibshirani & Wainwright (2015) . Дисперсия выбора модели определяется выпуклостью черной линии на минимуме. Здесь минимум не очень выражен, а линия довольно слабо выпуклая, поэтому выбор модели, вероятно, довольно неопределенный с высокой дисперсией. И дисперсия оценки ошибки OOB CV, конечно, дается множеством голубых линий, указывающих стандартные ошибки.

одно стандартное правило ошибки

С. Коласса - Восстановить Монику
источник
1
Хаха, попробуйте этот поиск (или поставьте дефис в вашем запросе).
говорит амеба: восстанови Монику
2
Если у вас есть только один параметр регуляризации, то такое переопределение, как правило, не является слишком проблематичным (поскольку проблема оптимизации имеет только одну степень свободы), но если у вас много параметров регуляризации (например, автоматическое определение релевантности для нейронных сетей) тогда это может быстро оказаться очень существенным. Метод one sd - это хорошая эвристика, позволяющая избежать чрезмерной оптимизации параметра регуляризации, но было бы неплохо попробовать и получить что-то с немного большим обоснованием (1/2)
Dikran Marsupial,
1
Два подхода, которые мы (г-жа Marsupial и I) исследовали, - это регуляризация гиперпараметров с помощью гипер-гиперпараметра, который аналитически интегрирован ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) или для преобразования некоторых гиперпараметров в параметры и их подгонки непосредственно к данным, за счет добавления дополнительного параметра регуляризации (но это все же уменьшает степени свободы выбора модели, поэтому это все равно помогает) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Дикран Сумчатый
1
λ
1
@DikranMarsupial упомянул одну тему об оптимизации-lambda-vs-marginalizing-over-lambda: stats.stackexchange.com/questions/24799 . Это обсуждение о регрессии гребня, и маргинализация, вероятно, (?) Сложнее для лассо / эластичной сети / и т. Д., В то время как красота CV в том, что его так легко реализовать.
говорит амеба, восстанови Монику
12

Для эмпирического обоснования взгляните на стр. 12 этих заметок о курсе интеллектуального анализа данных Tibshirani , где показана ошибка CV как функция лямбда-выражения для конкретной задачи моделирования. Предполагается, что ниже определенного значения все лямбды дают примерно одинаковую ошибку CV. Это имеет смысл, потому что, в отличие от регрессии гребня, LASSO обычно не используется только или даже в основном для повышения точности прогнозирования. Его главное преимущество состоит в том, что он делает модели более простыми и более интерпретируемыми за счет исключения наименее значимых / ценных предикторов.

λL1

Павел
источник
1
Я не понимаю логику этого ответа. Например: «в отличие от регрессии гребня, LASSO не является механизмом повышения точности прогнозирования» - почему? Почему L1 так отличается от L2? В следующем предложении вы описываете, что происходит с L1 для низких лямбд, но я думаю, что то же самое происходит с L2 для низких лямбд.
говорит амеба: восстанови Монику
1
Обратите внимание, что это эвристическое объяснение и основано на некоторых неустановленных предположениях, как и все предикторы являются информативными. Если у вас есть куча предикторов шума и несколько информативных, то действительно может существовать значение лямбда, которое четко и заметно оптимизирует показатель CV: то, которое соответствует выбору подмножества информативных предикторов. Когда лямбда падает ниже этого значения, вы просто впускаете шум и вредите модели.
Пол
1
Я думаю, что аргумент работает одинаково хорошо для риджа и лассо, если вы используете широкое определение экономии, в которой больше регуляризации -> более простая модель. Однако мотивировать для L1 легче, чем для L2 из-за различных типов проблем и наборов данных, на которых они используются. Люди, которые используют L1, больше заинтересованы в том, чтобы иметь простую модель, и они с большей вероятностью встретят кривую CV-ошибок, представленную Тибширани.
Paul
1
Из классического текста ESL , стр. 224: «Часто правило« одной стандартной ошибки »используется с перекрестной проверкой, в которой мы выбираем наиболее экономную модель, чья ошибка не более чем на одну стандартную ошибку выше ошибки лучшей модели». Данный пример представляет собой регрессию подмножества и показана кривая в форме колена в зависимости от количества предикторов. Кривая плоская над правильным числом предикторов, что снова согласуется с объяснением, которое я дал выше. Никакого строгого или математического обоснования не упоминается.
Paul
1
Поэтому я думаю, что главная проблема здесь в том, что минимум плохо определен, но наиболее регуляризованная модель в пределах одной сигмы минимума четко определена.
Paul
1

λλS^(λ)λ

λP(S0S^(λ))1S0

Об этом следует сообщить в статистике по многомерным данным Бюльмана и ван де Гира.

λ

Donbeo
источник
1
Можете ли вы рассказать немного подробнее здесь? Это кажется захватывающим.
DavidShor
1
λ
Я думаю, дело в том, что выбор большего количества переменных, чем требуется, снизит эффективность прогнозирования меньше, чем выбор недостаточного количества переменных. По этой причине CV имеет тенденцию выбирать больше переменных.
Donbeo
взгляните на эту книгу springer.com/gp/book/9783642201912 и на главу о лассо здесь drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo
Это книга, которую я имел в виду
Donbeo