Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза.
Работает ли лучше для небольших наборов данных или больших наборов данных?
Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза.
Работает ли лучше для небольших наборов данных или больших наборов данных?
Все сводится к дисперсии и предвзятости (как обычно). CV имеет тенденцию быть менее предвзятым, но K-кратный CV имеет довольно большую дисперсию. С другой стороны, самозагрузка имеет тенденцию резко уменьшить дисперсию, но дает более предвзятые результаты (они, как правило, пессимистичны). Другие методы начальной загрузки были адаптированы для устранения предвзятости начальной загрузки (например, правила 632 и 632+).
Два других подхода - это «Монте-Карло CV» или «CV из группы покидания», который выполняет много случайных разбивок данных (вроде мини-тренинга и разбивки теста). Дисперсия очень низкая для этого метода, и смещение не так уж плохо, если процент данных в удержании низкий. Кроме того, повторное CV делает K-кратное несколько раз и усредняет результаты, аналогичные обычному K-кратному. Я наиболее неравнодушен к этому, поскольку он сохраняет низкий уклон и уменьшает дисперсию.
Для больших размеров выборки проблемы дисперсии становятся менее важными, а вычислительная часть - большей проблемой. Я все еще придерживался бы повторного резюме для малых и больших размеров выборки.
Некоторые соответствующие исследования приведены ниже (особенно Ким и Молинаро).
Bengio Y. & Grandvalet Y. (2005). Смещение в оценке дисперсии k-кратной перекрестной проверки. Статистическое моделирование и анализ для сложных проблем данных, 75–95.
Брага-Нето, UM (2004). Является ли перекрестная проверка допустимой для классификации микрочипов малых выборок Bioinformatics, 20 (3), 374–380. DOI: 10,1093 / биоинформатики / btg419
Эфрон Б. (1983). Оценка частоты ошибок правила прогнозирования: улучшение перекрестной проверки. Журнал Американской статистической ассоциации, 316–331.
Efron B. & Tibshirani R. (1997). Улучшения в перекрестной проверке. 632+ метод начальной загрузки. Журнал Американской статистической ассоциации, 548–560.
Furlanello C., Merler S., Chemini C. & Rizzoli A. (1997). Применение правила начальной загрузки 632+ к экологическим данным. WIRN 97.
Jiang W. & Simon R. (2007). Сравнение методов начальной загрузки и скорректированного подхода начальной загрузки для оценки ошибки прогнозирования в классификации микрочипов. Статистика в медицине, 26 (29), 5320–5334.
Джонатан П., Кржановски В. и Маккарти В. (2000). Об использовании перекрестной проверки для оценки эффективности в многомерном прогнозировании. Статистика и вычисления, 10 (3), 209–229.
Ким, Ж.-Х. (2009). Оценка частоты ошибок классификации: повторная перекрестная проверка, повторное удержание и начальная загрузка. Вычислительная статистика и анализ данных, 53 (11), 3735–3745. DOI: 10.1016 / j.csda.2009.04.009
Кохави Р. (1995). Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели. Международная совместная конференция по искусственному интеллекту, 14, 1137–1145.
Martin, J. & Hirschberg, D. (1996). Небольшая выборочная статистика для классификации ошибок I: Измерение частоты ошибок.
Молинаро, AM (2005). Оценка ошибки прогноза: сравнение методов передискретизации. Биоинформатика, 21 (15), 3301–3307. DOI: 10,1093 / биоинформатики / bti499
Sauerbrei, W. & Schumacher1, M. (2000). Начальная загрузка и перекрестная проверка для оценки сложности управляемых данными регрессионных моделей. Анализ медицинских данных, 26–28.
Tibshirani, RJ, & Tibshirani, R. (2009). Поправка смещения для минимальной частоты ошибок при перекрестной проверке. Препринт Arxiv arXiv: 0908.2904.
@Frank Harrell проделал большую работу по этому вопросу. Я не знаю конкретных ссылок.
Но я скорее вижу, что эти две техники предназначены для разных целей. Перекрестная проверка является хорошим инструментом при выборе модели - она помогает вам не обманывать себя, думая, что у вас есть хорошая модель, когда на самом деле вы переизбираете.
Когда ваша модель исправлена, тогда использование начальной загрузки имеет больше смысла (по крайней мере, для меня).
Введение в эти концепции (плюс тесты перестановки) с использованием R на http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
источник
Насколько я понимаю, начальная загрузка - это способ количественной оценки неопределенности в вашей модели, в то время как перекрестная проверка используется для выбора модели и измерения точности прогнозирования.
источник
Одно из отличий состоит в том, что перекрестная проверка, как и складной нож, использует все ваши точки данных, в то время как самозагрузка, которая случайным образом выполняет повторную выборку ваших данных, может не затронуть все точки.
Вы можете загружать так долго, как хотите, что означает большую повторную выборку, что должно помочь с меньшими выборками.
Перекрестная проверка или среднее значение складного ножа будет таким же, как среднее по выборке, тогда как среднее значение при начальной загрузке очень маловероятно будет таким же, как среднее по выборке.
Поскольку перекрестная проверка и вес ножа для ножа одинаковы, у них должен быть меньший (хотя, возможно, неправильный) доверительный интервал, чем при начальной загрузке.
источник
Это две техники передискретизации:
При перекрестной проверке мы делим данные случайным образом на kfold, и это помогает в переобучении, но у этого подхода есть свой недостаток. Поскольку он использует случайные выборки, то некоторые выборки дают большую ошибку. Для того, чтобы свести к минимуму резюме есть методы, но это не так сильно с проблемами классификации. Bootstrap помогает в этом, он исправляет ошибку из своего собственного примера проверки .. подробнее см.
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf
источник