Когда применимы результаты Шао по кросс-проверке с пропуском?

23

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, что даже для всего лишь 40 наблюдений LOOCV может уступать другим методам перекрестной проверки.

Эта статья несколько противоречива и несколько игнорируется (через 10 лет после ее публикации мои коллеги по хемометрии никогда не слышали о ней и с удовольствием использовали LOOCV для выбора переменных ...). Существует также убеждение (я виновен в этом), что его результаты выходят за рамки первоначальной ограниченной области.

Тогда возникает вопрос: насколько далеко распространяются эти результаты? Применимы ли они к следующим проблемам?

  1. Выбор переменной для логистической регрессии / GLM?
  2. Выбор переменной для классификации Fisher LDA?
  3. Выбор переменной с использованием SVM с конечным (или бесконечным) пространством ядра?
  4. Сравнение моделей в классификации, скажем SVM с использованием разных ядер?
  5. Сравнение моделей в линейной регрессии, скажем, сравнивая MLR с регрессией Риджа?
  6. и т.п.
shabbychef
источник
Там должно быть что-то в книгах по хемометрике; единственный человек, которого я знаю, который использует LOO, тоже делает это.

Ответы:

14

Вам нужно указать цель модели, прежде чем вы сможете сказать, применимы ли результаты Шао. Например, если целью является прогнозирование, то LOOCV имеет смысл, и несогласованность выбора переменных не является проблемой. С другой стороны, если цель состоит в том, чтобы идентифицировать важные переменные и объяснить, как они влияют на переменную ответа, тогда результаты Шао, очевидно, важны, а LOOCV не подходит.

AIC асимптотически LOOCV, а BIC асимптотически эквивалентен оставленному out CV, где v = n [ 1 - 1 / ( logv --- результат BIC только для линейных моделей. Таким образом, BIC дает последовательный выбор модели. Поэтому краткая сводка результата Шао состоит в том, что AIC полезен для предсказания, а BIC полезен для объяснения.v=n[11/(log(n)1)]

Роб Хиндман
источник
1
Я полагаю, что Шао показал, что CV в k-кратном порядке непоследовательно, если фиксировано, а n растет kn
шеббычеф
1
БИК имеет к растет с п.
Роб Хиндман
1
Я просто молча напомню, что * IC <-> * CV-переписка из статьи Shao работает только для линейных моделей, а BIC эквивалентна только k-кратному CV с определенным k.
На самом деле, я полагаю, что Шао показывает, что CV противоречиво, если только при n inf , где n v - количество образцов в тестовом наборе. Таким образом, k- кратное CV всегда несовместимо для выбора переменной. Я неправильно понял? Под k- кратным CV я имею в виду разделение выборки на k групп и обучение на k - 1 из них, а также тестирование на 1 из них, затем повторение k раз. Тогда n v / n = 1 / k для knv/n1ninfnvkkkk1knv/n=1/kk -кратное CV, которое никогда не приближается к 1.
shabbychef
3
@mbq: Нет - доказательство AIC / LOO Стоуна 1977 года не предполагает линейных моделей. По этой причине, в отличие от результата Шао, он широко цитируется; посмотрите, например, главы по выбору модели в EOSL или в Справочнике по вычислительной статистике, или действительно любую хорошую главу / статью по выбору модели. Это всего лишь немного больше, чем страница длиной, и ее стоит прочитать, потому что он несколько опрятен, поскольку он избегает необходимости вычислять информацию / оценку Фишера для получения результата.
АРС
7

Эта статья несколько противоречива и несколько игнорируется

Не совсем, это хорошо рассматривается в том, что касается теории выбора модели, хотя, конечно, она неверно истолкована. Реальная проблема заключается в том, насколько это актуально для практики моделирования на воле. Предположим, вы выполняете моделирование для случаев, которые вы предлагаете исследовать, и определяете, что LOOCV действительно несовместимо. Единственная причина, по которой вы это получите, заключается в том, что вы уже знаете «истинную» модель и, следовательно, можете определить, что вероятность восстановления «истинной» модели не сходится к 1. Для моделирования в дикой природе, как часто это верно ( что явления описываются линейными моделями, а «истинная» модель является подмножеством рассматриваемых)?

Работа Шао, безусловно, интересна для продвижения теоретических основ. Это даже дает некоторую ясность: если «истинная» модель действительно находится на рассмотрении, то у нас есть результаты согласованности, на которых мы можем повесить шляпы. Но я не уверен, насколько интересными будут реальные симуляции для описываемых вами случаев. Во многом это объясняет, почему большинство книг, таких как EOSL, уделяют не столько внимание результатам Шао, сколько ошибкам прогнозирования / обобщения в качестве критерия выбора модели.

РЕДАКТИРОВАТЬ: Очень краткий ответ на ваш вопрос: результаты Шао применимы, когда вы выполняете оценку наименьших квадратов, функцию квадратичных потерь. Не шире. (Я думаю, что была интересная статья Янга (2005?), Которая исследовала, можете ли вы иметь последовательность и эффективность, с отрицательным ответом.)

АРС
источник
Я не думаю, что это важно, знаю ли я настоящую модель в дикой природе. Если есть «истинная» модель, я бы предпочел метод, который с большей вероятностью ее найдет.
Шаббычеф
2
@shabbychef: я не согласен. Но обратите внимание: «Если есть« истинная »модель», и она находится на рассмотрении… как бы вы узнали об этом априори?
АРС
1
Также обратите внимание, что мой второй абзац действительно подчеркивает ваш комментарий. Это хорошая собственность, но не все ясно, насколько она применима в дикой природе; хотя в некотором смысле это утешительно, оно может быть ошибочным.
АРС
2
@ars - обратите внимание, что «линейность» «истинной» модели - не единственный способ восстановить «истинную» модель из линейной модели. Если нелинейный компонент «истинной» модели может быть хорошо смоделирован с помощью шумового термина (например, нелинейные эффекты имеют тенденцию взаимно компенсировать друг друга), то мы могли бы разумно назвать линейную модель «истинной», я думаю. Это похоже на предположение, что остаток в линейном ряду Тейлора пренебрежимо мал.
вероятностная
1
v
6



10/101


источник
Помимо доказательств, мне интересно, проводились ли имитационные исследования какого-либо из пяти случаев, которые я перечисляю, например.
Шаббычеф
Хотите сделать немного?
2
Я делаю; Я собираюсь узнать намного больше R, чтобы поделиться результатами здесь.
Шаббычеф
1
@shabbychef: когда-нибудь делать это? И, между прочим, если вы все еще считаете хемометристов, которые используют или не используют CV для выбора переменных, вы можете посчитать меня на стороне тех, кто отказывается это делать, потому что: а) у меня еще не было реальных данных установить с достаточным количеством случаев (выборок), чтобы можно было сравнивать даже одну модель, и б) для моих спектроскопических данных соответствующая информация обычно «размазывается» по большим частям спектра, поэтому я предпочитаю регуляризацию, которая не делает жесткий выбор переменных.
cbeleites поддерживает Монику
1

1) В ответе @ars упоминается Ян (2005): «Можно ли разделить преимущества AIC и BIC?» , Грубо говоря, кажется, что вы не можете заставить критерий выбора модели достичь как согласованности (как правило, выбрать правильную модель, если действительно есть правильная модель, и она входит в число рассматриваемых моделей), так и эффективности (достичь наименьшего среднего значения). среднеквадратическая ошибка среди выбранных вами моделей). Если вы склонны выбирать правильную модель в среднем, иногда вы получаете немного слишком маленькие модели ... но, часто упуская реальный предиктор, вы добиваетесь меньших успехов с точки зрения MSE, чем тот, у кого всегда есть несколько ложных предикторов.

Итак, как уже было сказано, если вам нужно больше делать хорошие прогнозы, чем получать точно правильные переменные, можно продолжать использовать LOOCV или AIC.

2) Но я также хотел отметить две другие его работы: Ян (2006) «Сравнение методов обучения для классификации» и Ян (2007) «Согласованность перекрестной проверки для сравнения процедур регрессии» . Эти документы показывают, что вам не нужно, чтобы соотношение данных обучения и тестирования сокращалось до 0, если вы сравниваете модели, которые сходятся с более медленной скоростью, чем линейные модели.

Итак, чтобы ответить на ваши первоначальные вопросы 1-6 более прямо: результаты Шао применяются при сравнении линейных моделей друг с другом. Будь то регрессия или классификация, если вы сравниваете непараметрические модели, которые сходятся с более медленной скоростью (или даже сравниваете одну линейную модель с одной непараметрической моделью), вы можете использовать большую часть данных для обучения и при этом иметь CV, совместимый с выбором модели. ... но тем не менее Ян предполагает, что LOOCV слишком экстремальный.

civilstat
источник