В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, что даже для всего лишь 40 наблюдений LOOCV может уступать другим методам перекрестной проверки.
Эта статья несколько противоречива и несколько игнорируется (через 10 лет после ее публикации мои коллеги по хемометрии никогда не слышали о ней и с удовольствием использовали LOOCV для выбора переменных ...). Существует также убеждение (я виновен в этом), что его результаты выходят за рамки первоначальной ограниченной области.
Тогда возникает вопрос: насколько далеко распространяются эти результаты? Применимы ли они к следующим проблемам?
- Выбор переменной для логистической регрессии / GLM?
- Выбор переменной для классификации Fisher LDA?
- Выбор переменной с использованием SVM с конечным (или бесконечным) пространством ядра?
- Сравнение моделей в классификации, скажем SVM с использованием разных ядер?
- Сравнение моделей в линейной регрессии, скажем, сравнивая MLR с регрессией Риджа?
- и т.п.
источник
Ответы:
Вам нужно указать цель модели, прежде чем вы сможете сказать, применимы ли результаты Шао. Например, если целью является прогнозирование, то LOOCV имеет смысл, и несогласованность выбора переменных не является проблемой. С другой стороны, если цель состоит в том, чтобы идентифицировать важные переменные и объяснить, как они влияют на переменную ответа, тогда результаты Шао, очевидно, важны, а LOOCV не подходит.
AIC асимптотически LOOCV, а BIC асимптотически эквивалентен оставленному out CV, где v = n [ 1 - 1 / ( logv --- результат BIC только для линейных моделей. Таким образом, BIC дает последовательный выбор модели. Поэтому краткая сводка результата Шао состоит в том, что AIC полезен для предсказания, а BIC полезен для объяснения.v=n[1−1/(log(n)−1)]
источник
Не совсем, это хорошо рассматривается в том, что касается теории выбора модели, хотя, конечно, она неверно истолкована. Реальная проблема заключается в том, насколько это актуально для практики моделирования на воле. Предположим, вы выполняете моделирование для случаев, которые вы предлагаете исследовать, и определяете, что LOOCV действительно несовместимо. Единственная причина, по которой вы это получите, заключается в том, что вы уже знаете «истинную» модель и, следовательно, можете определить, что вероятность восстановления «истинной» модели не сходится к 1. Для моделирования в дикой природе, как часто это верно ( что явления описываются линейными моделями, а «истинная» модель является подмножеством рассматриваемых)?
Работа Шао, безусловно, интересна для продвижения теоретических основ. Это даже дает некоторую ясность: если «истинная» модель действительно находится на рассмотрении, то у нас есть результаты согласованности, на которых мы можем повесить шляпы. Но я не уверен, насколько интересными будут реальные симуляции для описываемых вами случаев. Во многом это объясняет, почему большинство книг, таких как EOSL, уделяют не столько внимание результатам Шао, сколько ошибкам прогнозирования / обобщения в качестве критерия выбора модели.
РЕДАКТИРОВАТЬ: Очень краткий ответ на ваш вопрос: результаты Шао применимы, когда вы выполняете оценку наименьших квадратов, функцию квадратичных потерь. Не шире. (Я думаю, что была интересная статья Янга (2005?), Которая исследовала, можете ли вы иметь последовательность и эффективность, с отрицательным ответом.)
источник
источник
1) В ответе @ars упоминается Ян (2005): «Можно ли разделить преимущества AIC и BIC?» , Грубо говоря, кажется, что вы не можете заставить критерий выбора модели достичь как согласованности (как правило, выбрать правильную модель, если действительно есть правильная модель, и она входит в число рассматриваемых моделей), так и эффективности (достичь наименьшего среднего значения). среднеквадратическая ошибка среди выбранных вами моделей). Если вы склонны выбирать правильную модель в среднем, иногда вы получаете немного слишком маленькие модели ... но, часто упуская реальный предиктор, вы добиваетесь меньших успехов с точки зрения MSE, чем тот, у кого всегда есть несколько ложных предикторов.
Итак, как уже было сказано, если вам нужно больше делать хорошие прогнозы, чем получать точно правильные переменные, можно продолжать использовать LOOCV или AIC.
2) Но я также хотел отметить две другие его работы: Ян (2006) «Сравнение методов обучения для классификации» и Ян (2007) «Согласованность перекрестной проверки для сравнения процедур регрессии» . Эти документы показывают, что вам не нужно, чтобы соотношение данных обучения и тестирования сокращалось до 0, если вы сравниваете модели, которые сходятся с более медленной скоростью, чем линейные модели.
Итак, чтобы ответить на ваши первоначальные вопросы 1-6 более прямо: результаты Шао применяются при сравнении линейных моделей друг с другом. Будь то регрессия или классификация, если вы сравниваете непараметрические модели, которые сходятся с более медленной скоростью (или даже сравниваете одну линейную модель с одной непараметрической моделью), вы можете использовать большую часть данных для обучения и при этом иметь CV, совместимый с выбором модели. ... но тем не менее Ян предполагает, что LOOCV слишком экстремальный.
источник