Влияет ли реализация перекрестной проверки на ее результаты?

9

Как вы знаете, существует два популярных типа перекрестной проверки: K-кратная и случайная субсэмплинг (как описано в Википедии ). Тем не менее, я знаю, что некоторые исследователи делают и публикуют статьи, где нечто, описываемое как K-кратное резюме, действительно является случайным субсэмплингом, поэтому на практике вы никогда не узнаете, что на самом деле содержится в статье, которую вы читаете.
Обычно, конечно, разница незаметна, и поэтому у меня возникает вопрос - можете ли вы привести пример, когда результат одного типа значительно отличается от другого?


источник

Ответы:

4

Конечно, вы можете получить разные результаты просто потому, что вы тренируетесь на разных примерах. Я очень сомневаюсь, что есть алгоритм или проблемная область, где результаты этих двух будут отличаться каким-то предсказуемым образом.

bmargulies
источник
Я имел в виду существенно разные результаты. Я также думаю, что нет ни одного, по крайней мере, реального примера. Тем не менее, я думаю, я подожду еще немного.
3

Обычно, конечно, разница незаметна, и поэтому у меня возникает вопрос - можете ли вы привести пример, когда результат одного типа значительно отличается от другого?

Я совсем не уверен, что разница незаметна, и что только в специальном примере она будет заметна. Методы перекрестной проверки и начальной загрузки (подвыборки) критически зависят от их параметров проектирования, и это понимание еще не завершено. В общем, результаты в перекрестной проверке в k-кратном порядке критически зависят от количества сгибов, поэтому вы всегда можете ожидать результатов, отличных от того, что вы наблюдаете при субвыборке.

Пример: скажем, что у вас есть истинная линейная модель с фиксированным количеством параметров. Если вы используете перекрестную проверку в k-кратном порядке (с заданным фиксированным значением k) и позволяете количеству наблюдений переходить в бесконечность, перекрестная проверка в k-кратном порядке будет асимптотически несовместимой для выбора модели, т. Е. Она будет определять неверную модель с вероятность больше 0. Этот удивительный результат обусловлен Jun Shao, «Выбор линейной модели путем перекрестной проверки», журнал Американской статистической ассоциации , 88 , 486-494 (1993), но в этом ключе можно найти больше работ.

В целом, респектабельные статистические документы определяют протокол перекрестной проверки именно потому, что результаты не являются инвариантными. В случае, когда они выбирают большое количество сгибов для больших наборов данных, они отмечают и пытаются исправить смещения в выборе модели.

с промежутками
источник
Нет, нет, нет, речь идет о машинном обучении, а не о выборе модели.
1
Интересное различие. Я думал, что выбор модели был центральным для машинного обучения, почти во всех значениях этого термина.
gappy
Все это работает для тривиальных (в основном линейных) моделей, когда у вас мало параметров, и вы просто хотите подогнать их под данные, чтобы что-то сказать об этом, например, у вас есть y и x, и вы хотите проверить, y = x ^ 2 или y = х. Здесь я говорю об оценке ошибки моделей, таких как SVM или RF, которые могут иметь тысячи параметров и все еще не переоснащаются из-за сложной эвристики.
Эти результаты верны для регрессии общих линейных моделей с произвольным числом независимых переменных. Переменные могут быть произвольными учениками. Главное предположение состоит в том, что по мере того, как число наблюдений уходит в бесконечность, число учащихся, описывающих истинную модель, остается конечным. Все это работает для регрессии, поэтому для такой задачи классификации, как ваша, я не уверен, что это поможет.
gappy
Это не; GLM - это не машинное обучение. Истинные методы машинного обучения достаточно мудры, чтобы поддерживать уровень сложности независимо от растущего числа объектов (если этого, конечно, достаточно); даже для линейных моделей вся эта теория работает довольно плохо, поскольку сходимость плохая.