В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования.
Перекрестная проверка используется для следующего:
- Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В случае повышения используйте CV для выбора параметров настройки.
- Оценка модели : Оцените производительность выбранной модели
Для оценки модели важны несколько параметров, одним из которых является ожидаемая ошибка прогнозирования. Перекрестная проверка дает хорошую оценку ошибки предсказания, а также описана в книге «Элементы статистического обучения».
Но как мы можем использовать ожидаемую ошибку прогноза для построения интервала прогнозирования?
И если вы прогнозируете, например, цену дома, интервал прогнозирования будет выше для дома в 500 000 евро по сравнению с домом в 200 000 евро. Как мы оцениваем эти интервалы прогнозирования, используя перекрестную проверку?
Ответы:
Прочитав этот вопрос еще раз, я могу дать вам следующую оценку:
Пожалуйста, не сообщайте только об ошибке перекрестной проверки или об ошибке теста, это вообще бессмысленно, так как это просто точечные оценки.
Старый пост для записи:
Я не уверен, что полностью понял ваш вопрос, но я попробую.
Во-первых, я не уверен, как бы вы определили интервал прогнозирования для выбора модели, поскольку, насколько я понимаю, интервалы прогнозирования делают некоторые предположения о распределении. Вместо этого вы можете получить неравенства концентрации, которые по существу связывают случайную переменную по ее дисперсии для некоторой вероятности. Концентрационные неравенства используются посредством машинного обучения, в том числе передовой теории повышения. В этом случае вы хотите связать ошибку обобщения (ваша ошибка в целом, точки, которые вы не видели) с вашей эмпирической ошибкой (вашей ошибкой в наборе тестов) плюс некоторый термин сложности и термин, который относится к дисперсии.
Теперь мне нужно развеять недопонимание о перекрестной проверке, которая встречается крайне часто. Перекрестная проверка даст вам объективную оценку ожидаемой ошибки модели для фиксированного размера образца. Доказательство этого работает только для протокола «Оставь один». Это на самом деле довольно слабый, поскольку он не дает вам никакой информации относительно дисперсии. С другой стороны, перекрестная проверка вернет модель, близкую к решению по минимизации структурного риска, которое является теоретически лучшим решением. Вы можете найти доказательство в приложении здесь: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Так как же получить границу обобщения? (Помните, что граница обобщения - это, в основном, интервал прогнозирования ошибки обобщения для конкретной модели). Ну, эти границы зависят от алгоритма. К сожалению, есть только один учебник, который устанавливает границы для всех часто используемых алгоритмов в машинном обучении (включая повышение). Книга «Основы машинного обучения» (2012) Мори, Ростамизаде и Тальвалкара. Для слайдов лекций, которые охватывают материал, вы можете найти их на веб-странице Мори: http://www.cs.nyu.edu/~mohri/ml14/
Хотя «Элементы статистического обучения» - важная и несколько полезная книга, она не очень строгая и не содержит многих очень важных технических деталей, касающихся алгоритмов, и полностью исключает какие-либо границы обобщений. Основы машинного обучения - самая полная книга для машинного обучения (которая имеет смысл видеть, поскольку она была написана одними из лучших в этой области). Однако учебник продвинутый, поэтому просто остерегайтесь технических деталей.
Границу обобщения для повышения можно найти (с доказательством) здесь: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Я надеюсь, что этих указателей достаточно, чтобы ответить на ваш вопрос. Я не решаюсь дать полный ответ, потому что потребуется около 50 страниц, чтобы просмотреть все необходимые детали, не говоря уже о предварительных обсуждениях ...
Удачи!
источник