Высокая дисперсия перекрестной проверки по принципу «один-один-один»

15

Я читал снова и снова, что перекрестная проверка «Оставить один» имеет высокую дисперсию из-за большого перекрытия тренировочных сгибов. Однако я не понимаю, почему это так: не должны ли результаты перекрестной проверки быть очень стабильными (низкая дисперсия) именно потому, что тренировочные наборы практически идентичны? Или я неправильно понимаю понятие «дисперсия»?

Я также не до конца понимаю, как LOO может быть беспристрастным, но иметь высокую дисперсию? Если оценка LOO равна истинному значению оценки в ожидании - как тогда она может иметь высокую дисперсию?

Примечание: я знаю, что здесь есть похожий вопрос: почему отклонение от одной проверки кросс-валидации (LOOCV) относительно средней оценки высокой ошибки? Однако ответивший позже говорит в комментариях, что, несмотря на возражения, он понял, что его ответ неверен.

Pegah
источник
2
Я тот человек :-), но, пожалуйста, обратите внимание, что, во-первых, я уже некоторое время назад обновил свой ответ, чтобы устранить путаницу, и, во-вторых, весь этот поток закрыт как дубликат другого потока: stats.stackexchange.com/ вопросы / 61783 . Вы смотрели там? Мне кажется, ваш вопрос тоже дублирует этот вопрос. Если вы недовольны ответом, приведенным там, подумайте о формулировке своего вопроса более конкретно. Прямо сейчас я проголосую за закрытие, но не стесняйтесь редактировать вашу Q.
амеба говорит восстановить Monica
3
0,50,49,0,51,0,49,0,51 ...0,1,0.9,0,1,0,9 ...
5
Что касается вашего первого абзаца: вам нужно подумать о разнице между различными реализациями всего набора данных . Для данного набора данных LOOCV действительно будет производить очень похожие модели для каждого разделения, потому что тренировочные наборы так сильно пересекаются (как вы сказали), но все эти модели могут быть вместе далеко от истинной модели; в разных наборах данных они будут сильно различаться в разных направлениях, что приведет к высокой дисперсии. Вот как я это качественно понимаю.
говорит амеба, восстанови Монику
2
@amoeba, почему бы не превратить эти комментарии в официальный ответ?
gung - Восстановить Монику

Ответы:

10

Этот вопрос, вероятно, в конечном итоге будет закрыт как дубликат дисперсии и предвзятости в перекрестной проверке: почему резюме, оставленное без ответа, имеет более высокую дисперсию? , но прежде чем это произойдет, я думаю, что я превращу свои комментарии в ответ.

Я также не до конца понимаю, как LOO может быть беспристрастным, но иметь высокую дисперсию?

0,50,49,0,51,0,49,0,51 ...0,1,0.9,0,1,0,9 ...

Разве эффективность перекрестной проверки не должна быть очень стабильной (низкая дисперсия) именно потому, что тренировочные наборы практически идентичны?

Вам нужно подумать о дисперсии между различными реализациями всего набора данных. Для данного набора данных перекрестная проверка по принципу «один-один-один» действительно даст очень похожие модели для каждого разбиения, поскольку тренировочные наборы пересекаются так сильно (как вы правильно заметили), но все эти модели могут быть вместе далеко от истинной модели; в разных наборах данных они будут сильно различаться в разных направлениях, что приведет к высокой дисперсии.

По крайней мере, так я это понимаю. Пожалуйста, смотрите связанные темы для дальнейшего обсуждения, и ссылки на статьи для еще большего обсуждения.

амеба говорит восстановить монику
источник
2
Итак, насколько я понимаю, низкое смещение дается, потому что обучающий набор очень большой - практически идентичен всему набору данных (поскольку для тестирования оставлен только один образец данных). Таким образом, для одного конкретного набора данных мы можем ожидать очень хорошую оценку. Однако из-за этой высокой корреляции сгибов (перекрестная проверка почти выполняется для идентичных данных в своих итерациях), оценка также очень специфична для этого конкретного набора данных, что приводит к высокой дисперсии между производительностью разных наборов данных из одного и того же базового распределения. , Верный?
Пегах
2
Я думаю, что это в основном правильно, но нужно быть осторожным, говоря это for one particular dataset we can expect a very good estimation. Я думаю, что это можно интерпретировать как означающее, что оценка некоторого параметра, специфичного для набора данных, будет хорошей. Но в целом перекрестная проверка должна оценивать параметр совокупности : насколько хорошо определенный тип модели может делать прогнозы относительно зависимой переменной в совокупности; и мы не можем ожидать очень хорошей оценки от LOOCV, из-за того, что вы написали (оценка есть very specific for this particular dataset).
говорит амеба: восстанови Монику
1
Я должен добавить предостережение, что все это мое текущее понимание, но в целом я считаю эту тему довольно сложной, и мой опыт перекрестной проверки ограничен. Я не эксперт.
говорит амеба, восстанови Монику
1
Могу ли я спросить, почему вы считаете это сложным? Мне любопытно, потому что это может научить меня, где нужно быть осторожным, когда дело доходит до CV или где углубить мои знания
Pegah
2
Учитывая принятый ответ в этой теме , возможно, вам больше не нужно упоминать высокую дисперсию LOOCV в этом ответе, а именно, следовательно, высокую дисперсию ? Я думал об этих вопросах некоторое время и не смог придумать какой-либо теоретической причины высокой дисперсии LOOCV в задачах непрерывной («непрерывной»?) Регрессии, хотя я вижу точку зрения Пола в комментариях в связанной ветке, что LOOCV терпит неудачу если ваш образец содержит дубликаты каждой точки.
Ричард Харди
1

Эта высокая разница по отношению к пространству тренировочных наборов. Вот почему LOOCV имеет высокую дисперсию: в LOOCV мы получаем ошибку прогнозирования для каждого наблюдения, скажем, наблюдения i, используя весь наблюдаемый набор данных, за исключением этого наблюдения. Таким образом, прогнозируемое значение для i очень зависит от текущего набора данных. Теперь предположим, что мы наблюдаем другой независимый набор данных и подгоняем модель к этому новому набору данных. Если мы используем эту новую модель, чтобы получить прогнозируемое значение для наблюдения i, прогнозируемое значение потенциально очень сильно отличается от того, которое оценивается LOOCV (хотя в среднем верно (несмещено)).

Это интуиция, лежащая в основе высокой дисперсии прогнозирования ошибок в LOOCV.

Однако, если вы используете LOOCV для сравнения результатов модели с разными гиперпараметрами, я полагаю, что вы можете безопасно использовать LOOCV для оценки ошибок прогнозирования, при условии, что истинное значение ошибки прогнозирования не представляет интереса, то есть вы просто хотите сравните различные модели с наблюдаемым обучающим набором, и вас не волнует фактическая истинная ошибка, которую нужно оценить.

При этом, как правило, если у вас небольшая выборка, используйте LOOCV, в противном случае используйте k-кратное CV с меньшим значением k.

Мехди Ростами
источник