Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать.
«Одно стандартное правило ошибки» применяется при выборе моделей путем перекрестной проверки (или, в более общем случае, посредством любой процедуры на основе рандомизации).
Предположим, что мы рассматриваем модели индексированные параметром сложности , такие, что является "более сложным", чем именно тогда, когда . Предположим далее, что мы оцениваем качество модели помощью некоторого процесса рандомизации, например перекрестной проверки. Пусть обозначает «среднее» качество , например, среднюю ошибку прогноза вне пакета во многих прогонах перекрестной проверки. Мы хотим минимизировать это количество.
Тем не менее, поскольку наша мера качества исходит из некоторой процедуры рандомизации, она меняется. Обозначим через стандартную ошибку качества в прогонах рандомизации, например, стандартное отклонение ошибки предсказания вне пакета прогонах перекрестной проверки.
Затем мы выбираем модель , где - наименьший такой, что
где индексирует (в среднем) лучшую модель, .
То есть мы выбираем простейшую модель (самую маленькую ), которая на одну стандартную ошибку хуже, чем лучшая модель в процедуре рандомизации.
Я нашел это «одно стандартное правило ошибки», на которое ссылаются в следующих местах, но никогда без какого-либо явного обоснования:
- Страница 80 в Деревьях классификации и регрессии Бреймана, Фридмана, Стоуна и Ольшена (1984)
- Страница 415 в Оценке числа кластеров в наборе данных с помощью статистики разрыва Tibshirani, Walther & Hastie ( JRSS B , 2001) (ссылка на Бреймана и др.)
- Страницы 61 и 244 в « Элементах статистического обучения » Хасти, Тибширани и Фридмана (2009)
- Страница 13 в статистическом обучении с редкостью от Hastie, Tibshirani & Wainwright (2015)
Ответы:
Следующее не является эмпирическим исследованием, поэтому я изначально хотел опубликовать его как комментарий, а не как ответ - но на самом деле это оказывается слишком длинным для комментария.
Cawley & Talbot ( J of Machine Learning Research , 2010) обращают внимание на разницу между переоснащением на этапе выбора модели и переоснащением на этапе подбора модели.
Второй вид переоснащения - это тот, с которым большинство людей знакомо: учитывая конкретную модель, мы не хотим ее переопределять, т. Е. Слишком близко подходить к конкретным особенностям единственного набора данных, который у нас обычно есть. ( Вот где может помочь усадка / регуляризация, торгуя небольшим увеличением смещения против большого уменьшения дисперсии. )
Тем не менее, Коули и Тэлбот утверждают, что мы можем подобрать подходящую модель на этапе выбора модели. В конце концов, у нас все еще обычно есть только один набор данных, и мы выбираем между различными моделями различной сложности. Оценка каждого кандидата модель для того , чтобы выбрать один , как правило , включает в себя установку , что модель, которая может быть сделано с помощью регуляризации или нет. Но эта оценка сама по себе снова является случайной величиной, потому что она зависит от конкретного набора данных, который у нас есть. Таким образом , наш выбор «оптимальная» модель сам по себе может проявлять предвзятость, и будет демонстрировать дисперсию, в зависимости от набора конкретных данных из всех наборов данных , мы могли бы извлечь из населения.
Поэтому Коули и Тэлбот утверждают, что простой выбор модели, которая лучше всего подходит для этой оценки, вполне может быть правилом выбора с небольшим уклоном, но он может демонстрировать большие расхождения. То есть, учитывая разные наборы обучающих данных из одного и того же процесса генерирования данных (DGP), это правило может выбирать очень разные модели, которые затем будут подгоняться и использоваться для прогнозирования в новых наборах данных, которые снова следуют тому же DGP. В этом свете ограничение дисперсии процедуры выбора модели, но небольшое отклонение в сторону более простых моделей может привести к меньшим ошибкам вне выборки.
Cawley & Talbot не связывают это явно с одним стандартным правилом ошибок, и их раздел «регуляризация выбора модели» очень короткий. Однако одно стандартное правило ошибки будет выполнять именно эту регуляризацию и принимать во внимание взаимосвязь между дисперсией в выборе модели и дисперсией ошибки перекрестной проверки из пакета.
Например, ниже приведен рисунок 2.3 из статистического обучения с редкостью от Hastie, Tibshirani & Wainwright (2015) . Дисперсия выбора модели определяется выпуклостью черной линии на минимуме. Здесь минимум не очень выражен, а линия довольно слабо выпуклая, поэтому выбор модели, вероятно, довольно неопределенный с высокой дисперсией. И дисперсия оценки ошибки OOB CV, конечно, дается множеством голубых линий, указывающих стандартные ошибки.
источник
Для эмпирического обоснования взгляните на стр. 12 этих заметок о курсе интеллектуального анализа данных Tibshirani , где показана ошибка CV как функция лямбда-выражения для конкретной задачи моделирования. Предполагается, что ниже определенного значения все лямбды дают примерно одинаковую ошибку CV. Это имеет смысл, потому что, в отличие от регрессии гребня, LASSO обычно не используется только или даже в основном для повышения точности прогнозирования. Его главное преимущество состоит в том, что он делает модели более простыми и более интерпретируемыми за счет исключения наименее значимых / ценных предикторов.
источник
Об этом следует сообщить в статистике по многомерным данным Бюльмана и ван де Гира.
источник